素的影响,可以采取哪些改进方法?
要求:要求样本规模较大,变量之间不要有太强的相关性,变量个数应该<样本量, 5、 实际应用问题,如何确定分类数目?
(1)根据经验和相关学科专业知识确定分类数目;(2)根据聚类统计量参考确定;(3)使用误判定理具体分析;
6、 快速聚类法(K—均值法)的基本思想或步骤是怎样的?
基本思想:在待聚类的样品比较多时,先给出一个大致的初始分类,然后用某种原则进行修改,知道分类结果比较合理为止。 步骤:
7、 有序样品的最优分割法的基本思想或步骤是怎样的?
8、 应用聚类分析解决实际问题的基本步骤是怎样的?应该注意哪些方面的问题? 步骤:1-6(P104)
应注意问题:无论选择哪种方法计算类与类之间距离(变量之间的相似系数),都是将距离(相似系数)中最小的两类合并成一个新类
第四章 主成分分析与典型相关分析
1、 主成分分析的基本思想是什么?在低维情况下,如何利用几何图形解释主成分的意
义?
基本思想:构造原始变量的适当的线性组合,以产生一系列互不相关的新变量,从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息,从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。 几何解释:
2、 什么是主成分的贡献率与累计贡献率?实际应用时,如何确定主成分的个数?
描述第k个主成分提取的信息占原来变量总信息量的比重,称为第k个主成分Yk
的贡献率;称 为前m个主成分Y1、Y2、?Ym的累计贡献率,表示前m个主成分提取X1,X2,?,Xp的总信息量的比重。 在实际应用中,通常选取m
(1)每一主成分都是原始变量的线性组合; (2)主成分的数目大大少于原始变量的数目;
(3)主成分保留了原始变量所包含的绝大部分信息; (4)各主成分之间互不相关;
4、 对于任何情形的多个变量,都可以采取主成分方法降维吗?为什么?
5、 怎样的情况下需要计算标准化的主成分?
在实际问题中,不同的变量往往有不同的量纲,由于不同的量纲会引起各变量取值的分散程度差异较大,这时,总体方差将主要受较大的变量控制,若用协方差矩阵求主成分,则优先照顾了方差较大的变量,将可能导致不合理的结果。为了消除由于量纲不同所带来的影响,常采用变量标准化的方法来求主成分。 6、 主成分有哪些应用?
7、 如何解释主成分的实际含义?
关于主成分的实际意义,要结合具体问题和有关专业知识才能给出合理的解释。主成分分析往往不是最终目的,更重要的是利用主成分分析综合原始变量的信息,达到降低原始变量维数的目的,进而利用有钱几个主成分得到的低维数据做进一步分析。 8、 典型相关分析的基本思想是什么?有何实际用途? 基本思想:
用途:用于研究两个变量组之间的关系
9、 典型相关分析与回归分析、判别分析、主成分分析、因子分析有何关联?试比较这些
方法的异同之处。
10、典型相关分析有哪些基本假定?
11、如何解释典型相关函数的实际意义?
12、典型相关方法中冗余度分析的意义是什么?
第五章 因子分析与对应分析
1、 因子分析是怎样的一种统计方法?它的基本目的和用途是什么?
因子分析是根据相关性大小将变量分组,使得同组内的变量之间相关性较高,不同组的相关性较低,每组变量代表一个基本结构,用一个不可观测的综合变量表示,这个基本结构成为公共因子,对所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量;
基本目的:利用降维的思想,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子;
用途:另一作用是对变量进行分类处理,根据因子得分值,在因子轴所构成的空间中把变量点画出来,形象直观的达到分类目的;
2、 因子分子中的KMO统计量与巴特莱特球形性检验的目的是什么?
3、 因子分析有哪些类型?它们有何区别?Q型因子分析与聚类分析有何异同?
4、 因子分析中的变量类型是怎样的?因子分析对变量数目有没有要求?对样本规模有
没有要求?
5、 因子分析有怎样的基本假定?对样本特点(或性质)有何要求?
6、 因子分析模型中,因子载荷、变量共同度、方差贡献等统计量的统计意义是什么?
7、 因子分析与主成分分析有何区别与联系?它们分别适用于怎样的情况?
8、 如何确定公共因子数目?如何解释公共因子的实际意义?
9、 怎样的情况下,需要作因子旋转?
10、有哪些估计因子得分的方法?因子得分的估计是普通意义下的参数估计吗?为什
么?
11、对应分析的基本思想或原理是什么?试举例说明它的应用。
12、对应分析中总惯量的意义是什么?