第七章 主成分分析(7)

2019-03-11 15:20

注意:a1, a2,…, am,为单位正交向量.

因‖X*(i)-X*(j)‖2=‖a1(zi1- zj1)+…+am(zim- zjm )‖2 =(zi1- zj1)2 +…+(zim- zjm ) 2

这样就把考察二个p维空间点的靠近程度转化为考察两个m(m

若取m=2,n个样品点可在平面上点出,利用点的分布规律对样品进行分类.?

例7.3.2 服装定型分类问题(续例7.3.1)?

利用128人16项指标的观测数据,试对128人的服装尺寸进行分类(即样品分类问题:把128人分为几类,每类找出典型代表,以该代表的服装尺寸作为这一类的尺寸).? 取m=2,求出两个主成分,并计算样本主成分得分值Z(i) =(zi1,zi2)′(i=1,2,…,128).把这个128个点点在平面上,利用平面散布图,把128个点分为七类.? 第一类共有25个点,聚集中心是Z(25) ;? 第二类有14个点,聚集中心是Z(114) ;? 第三类有9个点,聚集中心是Z(89) ;? 第四类有7个点,聚集中心是Z(112) ;? 第五类有12个点,聚集中心是Z(9) ;? 第六类有20个点,聚集中心是Z(47) ;? 第七类有8个点,聚集中心是Z(118) .?

七个类的典型代表分别是第25号,114号,89号,112号,9号,47号和118号样品,以它们的服装尺寸作为一个型号的标准尺寸.如型号I(第

一类)的标准尺寸就是第25号样品的尺寸等等.各种型号服装的生产数量也按25:14:9:7:12:20:8这样的比例来生产.? 注意:这七类并没有把128个点全部包括在内,还有33个样品不能归入这七个类,可认为是一些特殊体形的样品.?、 样品排序或系统评估

对p维总体X的样本进行主成分分析往往不是最终的目的,而常常是完成某个实际问题的一种手段.如例7.2.1中由第一主成分得分对30名中学生的身体魁梧程度进行排序.? 在实际工作中常会迂到的多指标系统的排序评估问题,比如对某类企业的经济效益进行评估比较,影响企业经济效益的指标有很多,如何更科学、更客观地将一个多指标问题综合为单个指数的形式.主成分分析方法为样品排序或多指标系统评估提供可行的方法.?

对多指标系统进行排序评估的主要方法是加权评估法.比如专家评估方法,综合评分法,层次分析法等.随着多元统计方法的普及与应用,主成分分析方法也成为构造系统排序评估指数的常用方法之一.? 设Z1是标准化随机向量X=(X1,…,Xp)′的第一主成分.由主成分的性质可知,Z1与原始标准化变量X1,X2,…,Xp的综合相关程度最强, 即ρ2(Z1,X1)+…+ρ2(Z1,Xp)= λ1达最大,其中λ1为X的相关阵R的最大特征值.如果只选一个综合变量来代表原来所有的原始变量,最佳的选择就是Z1 .? 另方面,由于第一主成分Z1对应于数据变异最大的方向,这说明Z1是使数据信息损失最小,精度最高的一维综合变量,因此它可用于构造系统排序评估指数.

主成分回归---应用例子7.3.3 例7.3.3 经济分析数据的主成分回归

考察进口总额Y与三个自变量:国内总产值X1,存储量X2,总消费量X3(单位均为十亿法郎)有关.现收集了1949年至1959年共11年的数据(见表7.6).对表7.6的数据试用主成分回归分析方法求进口总额与总产值、存储量和总消费量的定量关系式.?

解(1) 首先调用PRINCOMP过程对3个自变量做主成分分析.然后进行主成分回归.SAS程序如下(设表7.6生成的SAS数据集名为d733):?

表7.6 经济分析数据

例7.3.3的sas程序

proc standard data=d733 out=do733

mean=0 std=1;该过程把各变量的 var x1-x3 y 观测数据标准化var x1-x3 y; run; 用标准化后的数据作主成分分析

proc princomp data=do733 prefix=z out=o733 ; var x1 x2 x3; run;

proc print data=o733; var z1 z2 y; run;

例7.3.3的输出结果

由输出结果可知相关阵的三个特征为λ1=1.999,λ2=0.998,λ3=0.003.前二个主成分的累计贡献率在99%以上. 取两个主成分(用Xi*表示Xi的标准化变量): Z1=0.7063 X1*+0.0435 X2*+0.7065 X3* Z2=-0.0357 X1*+0.9990 X2*-0.0258 X3*?

主成分分析的结果还给出X1*、X2*和X3* 的一个多重共线性关系:

Z3=0.7070 X1* +0.0070 X2* -0.7072 X3* ≈ C 主成分回归及输出结果:

用主成分得分数据完成主成分回归: proc reg data=o733 ; model y=z1 z2; run;

回归过程得到的标准化回归方程为(Y*表示Y的标准化变量) Y*= 0.68998 Z1+0.1913 Z2

= 0.4804 X1*+0.2211 X2*+0.4825 X3* ? 用原始变量可表示为?

Y=-9.130+0.0727X1+0.6091X2+0.1062 X3 ? 用reg过程做主成分回归

解(2):使用REG过程做主成分回归.

在SAS/STAT软件的6.11以上的版本中,用REG过程提供的选项可完成主成分回归的计算. SAS程序如下:? proc reg data=d733 outest=o733 ;? model y=x1-x3 / pcomit=1,2 ;? run;?

proc print data=o733;? run;?

在MODEL语句的斜杠(/)后通过选项PCOMIT=1,2表示要求删去最后面(即最不重要)的1个或2个主成分之后,用前面m-1个主成分

或前面m-2个主成分(m为自变量的个数,此例中 m=3)进行主成分回归.主成分回归的结果存放在SAS数据集O733中.? 由输出结果(见输出结果中OBS为2的那一行)可以得出删去第三个主成分(PCOMIT=1)后的主成分回归方程为:??

Y= -9.1301+0.07278 x1+0.60922 x2 +0.10626 x3 ?

这个主成分回归方程中回归系数的符号都是有意义的;主成分回归方程的均方根误差( _RMSE_=0.55)虽比普通回归方程的均方根误差(_RMSE_=0.48887)有所增大,但增加并不多.?


第七章 主成分分析(7).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:浅谈施工安全与项目进度控制

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: