多元统计分析简答题(3)

2020-04-14 23:01

32、简述典型变量与典型相关系数的概念，并说明典型相关分析的基本思想。在每组变量中找出变量的线性组合，使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合，使其配对，并选取相关系数最大的一对，如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量，它们的相关系数称为典型相关系数。

33.因子分析的基本思想？因子分析是主成分分析的推广，它也是利用降维的思想，从研究原始变量相关矩阵内部结构出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的多元统计分析方法，因子分析的基本思想是根据相关性大小将变量分组，使得同组内的变量之间相关性较高，不同组的变量相关性较低。每一组变量代表一个基本结构，用一个不可观测的综合变量表示，这个基本结构称为公共因子。对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。

34、比较主成分分析与因子分析的异同点。

相同点：①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的，都是从一个协方差阵出发，利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇，将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳，那么因子分析可以说是将原指标给予分解、演绎。

主要区别是：主成分分析本质上是一种线性变换，将原始坐标变换到变异程度大的方向上为止，突出数据变异的方向，归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外，主成分分析不需要构造分析模型而因子分析要构造因子模型。

35、简述相应分析的基本思想。

相应分析指受制于某个载体总体的两个因素为A和B，其中因素A包含r个水平，即 A1,A2,…,Ar；因素B包含即c个水平，即B1,B2,…,Bc。对这两组因素作随机抽样调查，记为得到一个r×c的二维列联表，记为K=（Kij）r×c，主要目的是寻求列联表行因素A和列因素B的基本分析特征和它们的最优联立表示。基本思想为通过列联表的转换，使得因素A和列因素B具有对等性，这样就可以用相同的因子轴同时描述两个因素各个水平的情况，把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上，直观地描述两个因素A和因素B以及各个水平之间的相关关系。

36、进行相应分析时在对因素A和因素B进行相应分析之前有没有必要进行独立性检验？为什么？

有必要，如果因素A和因素B独立，则没有必要进行相应分析；如果因素A和因素B不独立，可以进一步通过相应分析考察两因素各个水平之间的相关关系。

37. 解释因子分析模型中，变量共同度与公因子方差贡献的统计意义。为什么有时候需要作因子旋转？有哪些估计因子得分的方法？因子得分的计算是不是通常意义下的参数估计？变量共同度的统计意义： Xi*=ai1F1+...+aimFm+εi

两边求方差 Var(Xi)=a2i1Var(F1)+...+ a2imVar(Fm)+Var(εi)

1=Σaij2+σi2=hi2+σi2

所有的公共因子和特殊因子对变量Xi*的贡献为1。hi2反映了全部公共因子对变量Xi*影响，是全部公共因子对变量方差所作出的贡献，或者说Xi*对公共因子的共同依赖程度，称为公共因子对变量Xi*的方差贡献。

hi2接近于1，表明该变量的原始信息几乎都被选取的公共因子说明了。 σi2特殊因子的方差，反映了原有变量方差中无法被公共因子描述的比例。

公因子方差贡献的统计意义：

是衡量公共因子相对重要性的指标，gj2越大，表明公共因子Fj对x的贡献越大，或者说对x的影响和作用就越大。

一个正交变换对应坐标系的旋转，而且主因子的任一解均可由已求得的A经过旋转（右乘一个正交阵）得到。经过旋转后，公共因子对xi的贡献hi2并不改变，但公共因子本身可能有较大变化，即gj2不再与原来的值相同，从而可通过适当的旋转来得到我们比较满意的公共因子。

估计因子得分的方法较多，常用的有回归估计法，Bartlett估计法，Thomson估计法。

⑴回归估计法

F = X b = X (X ￠X)-1A￠ = XR-1A￠（这里R为相关阵，且R = X ￠X ）。 ⑵Bartlett估计法

Bartlett估计因子得分可由最小二乘法或极大似然法导出。

F = [(W-1/2A）￠ W-1/2A]-1(W-1/2A）￠ W-1/2X = (A￠W-1A)-1A￠W-1X ⑶Thomson估计法

在回归估计法中，实际上是忽略特殊因子的作用，取R = X ￠X，若考虑特殊因子的作用，此时R = X ￠X+W，于是有： F = XR-1A￠ = X (X ￠X+W)-1A￠

这就是Thomson估计的因子得分，使用矩阵求逆算法（参考线性代数文献）可以将其转换为：

F = XR-1A￠ = X (I+A￠W-1A)-1W-1A￠

将公共因子用变量的线性组合来表示，也即由地区经济的各项指标值来估计它的因子得分。

设公共因子F由变量x表示的线性组合为： Fj = uj1 xj1+ uj2 xj2+…+ujpxjp j=1，2，…，m

但因子得分函数中方程的个数m小于变量的个数p，所以并不能精确计算出因子得分，只能对因子得分进行估计。

38.试比较主成分分析、因子分析、对应分析这三种方法的异同之处并简要介绍它们的应用。

主成分分析的基本思想是构造原始变量的适当的线性组合，以产生一系列互不相关的新变量，从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息，从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。通常变量中所含信息的多少用该变量的方差（或样本方差）来度量，这是经典的信息量的表示方法。例如，高校科研状况评价中的立项课题数与项目经费、经费支出等之间会存在较高的相关性；学生综合评价研究中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。利用主成分分析既可以大大减少参与建模的变量个数，同时也不会造成信息的大量丢失。能够有效降低变量维数。

因子分析是主成分分析的推广，它也是利用降维的思想，从研究原始变量相关矩阵内部结构出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的多元统计分析方法，因子分析的基本思想是根据相关性大小将变量分组，使得同组内的变量之间相关性较高，不同组的变量相关性较低。每一组变量代表一个基本结构，用一个不可观测的综合变量表示，这个基本结构称为公共因子。对于所研究的问题就可用最少个数的不可观测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。例如，某企业招聘人才，对每位应聘者进行外贸、申请书的形式、专业能力、讨人喜欢的能力、自信心、洞察力、诚信、推销本领、经验、工作态度、抱负、理解能力、潜在能力、实际能力、适应性的15个方面考核。这15个方面可归结为应聘者的表现力、亲和力、实践经验、专业能力4个方面，每一方面称为一个公告因子。企业可根据这4个公共因子的情况来衡量应聘者的综合水平。

对应分析是因子分析的进一步推广，也称关联分析、R-Q型因子分析，是近年新发展起来的一种多元相依变量统计分析技术，通过分析由定性变量构成的交互汇总表来揭示变量间的联系。可以揭示同一变量的各个类别之间的差异，以及不同变量各个类别之间的对应关系。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

它最大特点是能把众多的样品和众多的变量同时作到同一张图解上，将样品的大类及其属性在图上直观而又明了地表示出来，具有直观性。另外，它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程，可以从因子载荷图上对样品进行直观的分类，而且能够指示分类的主要参数（主因子）以及分类的依据，是一种直观、简单、方便的多元统计方法。

以用相同的因子轴同时描述两个因素各个水平的情况，把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上，直观地描述两个因素A和因素B以及各个水平之间的相关关系。

共同点：

（1）都是用少数的几个变量（因子）来反映原始变量（因子）的主要信息。并且新的变量彼此不相关，消除了多重共线性。

（2）求解过程是类似的，都是从一个协方差阵出发，利用特征值、特征向量求解。

不同点：

（1）相对于主成分分析，因子分析更倾向于描述原始变量之间的相关关系。（2）线性表示方向不同，因子分析和对应分析是把变量表示成公共因子的线性组合，而主成分分析则是把主成分表示成各变量的线性组合。

（3）主成分分析本质上是一种线性变换，将原始坐标变换到变异程度大的方向上为止，突出数据变异的方向，归纳重要信息。而因子分析和对应分析是从显在变量去提炼潜在因子的过程。此外，主成分分析不需要构造分析模型而因子分析和对应分析要构造因子模型。

（4）对应分析克服了因子分析的不足之处，可以寻找出R型和Q型分析间的内在联系，由R型分析的结果可以方便地得到Q型分析结果，克服了做Q型分析样品容量n很大时计算上的困难。

40.因子分析的一般步骤 1）将原始数据标准化

2）建立变量的相关系数矩阵R

3）求R的特征根及相应的单位特征向量，根据累积贡献率要求，取前m个特征根及相应的特征向量，写出因子载荷阵A 4）对A施行因子旋转 5）计算因子得分

41.试述主成分分析的基本思想。由协方差矩阵出发和由相关系数矩阵出发求主成分有何不同？答：主成分分析的基本思想是构造原始变量的适当的线性组合，以产生一系列互不相关的新变量，从中选出少量几个新变量并使它们含有足够多的原始变量带有的信息，从而使得用这几个新变量代替原始变量分析问题和解决问题成为可能。一般而言，对于度量单位不同的指标或是取值范围彼此差异非常大的指标，我们不直接由其协方差矩阵出发进行主成分分析，而应该考虑将数据标准化，由相关阵出发求解主成分。对同度量或是取值范围在同量级的数据，还是直接从协方差矩阵求解主成分为宜。相关阵求得的主成分与协差阵求得的主成分一般情况是不相同的。实际表明，这种差异有时很大。由协方差阵出发求解主成分所得的结果及由相关阵出发求解主成分所得的结果有很大不同，所得主成分解释原始变量方差比例与主成分表达式均有显著差别，且两者之间不存在简单的线性关系。

42.如果回归方程通过了显著性检验而有部分系数（变量）没有通过显著性检验，你觉得应该如何处理？谈谈你对回归方程形式设定和自变量选择的想法或经验。

答：根绝具体情况，找准原因。如果是变量对Y有很强的影响，而该变量对应的系数却没有通过检验，则修改回归模型。

常用的可选的回归方程形式有：线性函数、线性对数函数、倒数函数、线性多项式函数、交互作用函数等等。选择的标准：第一，看散点图，根据散点图的形态进行选择；第二，经济实质，这个根据回归系数的含义；第三，数据特征，有的是绝对数据有的是相对数据。但是，以上这些判断非常依赖经验，经验不足的话可以进行试错，对于样本选择所有的函数形式进行回归，再根据回归统计量的优劣确定最佳的函数形式。

自变量的选择问题可以看成是应该采用全模型还是选模型的问题

全模型正确误用选模型：全模型相应参数为有偏估计，选模型预测也是有偏的。选模型的参数估计和预测残差以及均方差都有较小的方差。选模型正确误用全模型，全模型参数估计和预测是有偏估计，而全模型预测值的方差和均方差大于选模型相应的方差。上述结论说明丢掉那些对应变量影响不大的，或虽有影响，但难于观测的自变量是有利的。

43.简述动态聚类法的基本思想和步骤，在实际应用中如何确定合理的聚类数目？

答：基本思想：首先选择若干个样本作为聚类中心，再按照事先确定的聚类准则进行聚类。在聚类过程中，根据聚类准则对聚类中心反复修改，直到分类合理为止。步骤：（1）选择凝聚点，凝聚点就是一批有代表性的样品。可以凭经验选择，或将所有样品随机分成k份，计算每一类的均值，将这些均值作为凝聚点；也可以采用最大最小原则或密度法。（2）初始分类

（3）判断分类是否合理，若不合理，则修改分类，重复步骤（2）（4）至分类结果合理，结束分类。

聚类数目的真正确定在于研究的问题是什么，以及事先有无一个大致的判断标准。分类的数目应该符合使用的目的。确定聚类数的问题属于聚类有效性问题。比如在模糊聚类分析中，可以根据方差分析理论，应用混合F统计量来确定最佳分类数。

44.试述有序样品最优分割法的基本思想和步骤。答：基本思想：先将n个样品看成一类，然后依据分类的误差函数逐渐增加分类。步骤：1）计算类的直径{D(I,j)} 2）计算最小分类损失函数L[b(n,K)] 3）决定K

4）最优解分类

45.简要介绍逐步回归的基本思想和步骤，实际应用中，如何确定最优的回归方

共5页:

多元统计分析简答题(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档