多元统计分析（期末试题）聚类分析主成分分析因子分析

2019-01-10 13:13

2011-2012学年第一学期《多元统计分析》上机考试试卷

班级：金融工程2009级学号： 2009310283 姓名：田睿电脑序号：

考试说明：

1、打开本试卷的WORD文件后，首先将本WORD文档“另存”，将文件名设为你的“学号+姓名”（注意，学号在前），并在本试卷中再次填好班级、姓名、学号、电脑序号，再根据题目要求将必要的结果复制到本文件中并进行必要的分析。考试结束时，提交该WORD文档，请不要提交SPSS的结果文件。

2、考试时间120分钟，16:00—18:00。考试结束后，将本试卷上传至ftp://stat.cufe.edu.cn（用户名和密码：mengjie2010）的“多元统计期末考试提交”子目录。注意，请务必到教师工作台向监考教师确认你的试卷已经上传成功后，再离开教室。

上机操作题：

1、（32分）为了从1张心电图的5项不同指标（X1~X5）中找出区分健康人（group=1）、

硬化症患者（group=2）和冠心病患者（group=3）这3类人的方法，对3类人分别取容量为n1=11、n2=7、n3=5的3个样本，原始数据见表1。请对此案例进行判别分析，并回答以下问题：（1）简述Fisher判别分析的基本原理。

（2）本题中，请分析三组人群在各项指标的取值上是否有显著差异。（显著性水平取0.1）（3）请写出贝叶斯判别函数的表达式。（先验概率按各组的样本容量比重确定）（4）请写出未标准化的Fisher判别函数的表达式。（5）分析三组人群被错判的情况。

（6）画出表示三组人群的两个Fisher判别式得分的散点图，用不同颜色的符号区别表示

不同的人群。

（7）新测得某人的5项指标值为（9.11，231.99，12.62，5.73，6.49），请给出其贝叶斯

判别的后验概率值，以及Fisher判别函数的得分值，则他属于哪类？

（8）贝叶斯判别方法的判别准则并不唯一，请说明在SPSS软件中，所输出的Bayes判

别函数的结果是在怎样的假设条件以及准则下计算得到的。

答：

1. Fisher判别分析的基本原理是：通过投影，用 p 维变量的少数几个线性组合（即判别函数），来代替原始的 p 维变量，以达到降维的目的，再根据样品在这些判别函数上的取值，对样品的归属做出判别。 2. 由SPSS输出表格：组均值的均等性的检验 X1 X2 X3 X4 X5 Wilks 的 Lambda .853 .598 .773 .751 .701 F 1.729 6.713 2.939 3.310 4.272 df1 2 2 2 2 2 df2 20 20 20 20 20 Sig. .203 .006 .076 .057 .029

看各个总体在均值等指标上除了x1均小于0.1，说明x2到x5之间有显著的差异，而x1的检验值大于0.1，拒绝原假设，说明其总体之间指标差异不大 3. 由SPSS输出表格分类函数系数 X1 X2 X3 X4 X5 (常量) 1 8.005 -.463 .091 108.180 30.148 -388.026 group 2 7.446 -.401 .121 103.481 28.316 -361.993 3 7.284 -.434 .365 103.183 29.247 -361.866 Fisher 的线性判别式函数通过上表写出Bayes判别函数分别为：

F1=-388.026+8.005x1-0.463x2+0.091x3+108.180x4+30.148x5 F2=-361.993+7.446x1-0.401x2+0.121x3+103.481x4+28.316x5 F3=-361.866+7.284x1-0.434x2+0.365x3+103.183x4+29.247x5

4.由SPSS输出表格：

典型判别式函数系数 X1 X2 X3 X4 X5 (常量) 1 函数 2 .110 .016 -.137 .329 -.456 -1.091 .299 -.024 -.060 2.319 .710 -12.716 非标准化系数

F1=-12.716+0.299x1-0.024x2-0.06x3+2.319x4+0.710x5 F2=-1.091+0.110x1+0.016x2-0.137x3+0.329x4-0.456x5

5. 由SPSS输出表格分类结果 a 初始计数 group 1 2 3 % 1 2 3 1 预测组成员 2 11 0 1 100.0 .0 20.0 0 6 0 .0 85.7 .0 3 0 1 4 .0 14.3 80.0 合计 11 7 5 100.0 100.0 100.0 a. 已对初始分组案例中的 91.3% 个进行了正确分类。由上图可知，第一组成员全部判断正确；第二组错判为第一组的概率是14.3%；第三组错判成第一组的概率是20% 6.

由

SPSS

输出表格

7. 某人的5项指标值为（9.11，231.99，12.62，5.73，6.49）

将各样品的自变量值代入上述三个Bayes判别函数：

F1=-388.026+8.005x1-0.463x2+0.091x3+108.180x4+30.148x5 F2=-361.993+7.446x1-0.401x2+0.121x3+103.481x4+28.316x5 F3=-361.866+7.284x1-0.434x2+0.365x3+103.183x4+29.247x5

得到：F1= F2= F3=

两个Fisher判别函数分别为：

F1=-12.716+0.299x1-0.024x2-0.06x3+2.319x4+0.710x5 F2=-1.091+0.110x1+0.016x2-0.137x3+0.329x4-0.456x5

F1=1.567 F2=0.905

8.距离判别法虽然简单、便于使用，但是该方法也有它明显的不足之处。

一，把总体等同看待，没有考虑到各总体会以不同的概率（先验概率）出现，也即判别方法与总体各自出现的概率的大小无关。

第二，判别方法与错判之后所造成的损失无关，没有考虑误判之后所造成的损失的差异

因此，我们对研究的对象已有一定的认识，常用先验概率分布来描述这种认识，然后我们取得一个样本（即事件A），用样本来修正已有的认识（先验概率分布），得到后验概率分布，各种统计推断都通过后验概率分布来进行，将贝叶斯思想用于判别分析，就得到贝叶斯判别。

2、（24分）根据1999年全国31个省、直辖市和自治区的城镇居民家庭平均每人全年消费

性支出的八个主要变量数据，见表2，变量如下：

x1：食品 x2：衣着

x5：交通和通讯 x6：娱乐教育文化服务 x7：居住

x8：杂项商品和服务

x3：家庭设备用品及服务 x4：医疗保健

（1）请说明聚类分析和判别分析的根本区别。

（2）本题中，分别采用系统聚类方法的最短距离法、重心法和离差平方和法对各地区作

聚类分析，给出谱系图。（注意：由于变量的量纲差异，需要使用中心标准化后的变量进行建模求解。）

（3）通过比较不同的方法，你认为哪种方法的结果更好。

（4）根据你的选择，在相应的系统聚类谱系图上表示出划分为三类的结果。（5）对各类的特征进行解释。

（6）再采用K均值聚类方法，给出分成三类的结果，以及各类的类重心值。答： 1.

判别分析和聚类分析是两种不同目的的分类方法，它们所起的作用是不同的。判别分析方法假定组（或类）已事先分好，判别新样品应归属哪一组，对组的事先划分有时也可以通过聚类分析得到。

聚类分析：将分类对象分成若干类，相似的归为同一类，不相似的归为不同的类。

2. 最短距离法、重心法和离差平方和法作谱系图

最短距离法下的谱系图

* * * * * * * * * * * * * * * * * * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * * * * * * * * * * * * * * * * * *

共4页:

多元统计分析（期末试题）聚类分析主成分分析因子分析.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

多元统计分析（ 期末试题） 聚类分析 主成分分析 因子分析

多元统计分析（期末试题）聚类分析主成分分析因子分析