第七章 主成分分析(5)

2019-03-11 15:20

以上输出列表中把30个观测按第一主成分从小到大重新排序后的输出结果.从这里可以得到分为三组时各组学生的更多的信息如下:? G1={11,15,29,10,28,6,24,14,2,27,18} G2={4,30,22,1,16,26,23,21,8,9,7,17} G3={20,13,19,12,5,3,25}

若考虑用Z1 ,Z2进行聚类,这就是主成分聚类方法.

以下不作要求

§7.3主成分分析的应用

主成分分析方法把p维数据简化为m(m?p)维数据后,进一步地可用于变量的分类,样品的分类,对样品进行排序或对系统进行评估,以及主成分回归,主成分聚类,多维正态数据的主成分检验等方面。 设n次观测数据阵X已标准化,这时样本协差阵就是样本相关阵R, R的特征值为λ1≥λ2 ≥ …≥λp 相应的标准化特征向量为a1,a2, …,ap 。样本主成分为 Zi=ai'X (i=1,…,p).

设m为满足累计贡献率>P0(一般取1≥P0≥0.7 )的最小正整数,取前m个主成分Z1 ,Z2 ,… ,Zm,由样本观测数据X(i) (i=1,2,…n)可求得

m个主成分的得分值zij :

zij?a?,2,...,m;i?1,2,...,n)jX(i)(j?1m个主成分的得分向量记为?z1j??z2jzj?????z?nj???????(j?1,2,...,m)m个主成分的得分矩阵为*?z11z12?z1m??Z(1)????*??z21z22?z2m??Z(2)?*Z?????(z1,z2,...,zm)????????????zz?z??Z*?nm??n1n2?(n)?利用样本主成分的性质(3),Xk由前m个主成分Z1 ,Z2 ,… ,Zm的最佳(残差平方和最小)表示式为 X k?ak1Z1?ak2Z2?...?akmZm(k?1,2,...,p)把Z*(i )(i=1,2,…,n)代入上式,可得

*xik?ak1zi1?ak2zi2?...?akmzim(i?1,2,...,n;k?1,2,...,p)由此可得出由主成分得分值估计变量Xk的得分向量.记

****X?(x,x,...,x k1k2knk)'(k?1,...,p)其中

x?ak1zi1?...?akmzim(i?1,...,n)*ik * *

?x11...x1p???* X ? ? ? ? ? ( X * ,..., X * ) (7.3.2) ? ?1p?x*...x*? np??n1

X=ZA'= ( Z*|Z2 ) ( A*|A2 ) ' = Z* (A*)' + Z2 A2' =X* + Z2 A2'

*2**(x?x)?tr[(X?X)'(X?X)]??ijiji?1j?1np?tr[(Z2A2')'(Z2A2')]?tr(Z2'Z2)?tr(A2'X'XA2)?tr[A2'(n?1)RA2]??1??m?10?0?????A'RA?????,故A2'RA2????0??0???p?p???*2(x?x??ijij)?....?tr[(n-1)A2'RA2]i?1j?1np因

所以,

??m?1??tr(n?1)??0?0?p????(n?1)??kk?m?1?p??当选取合适的m,可使得后面的p-m个?i的和很小,这时就有

指标(变量)分类

如果第i个变量和第j个变量的相关系数rij≈1,显然这两个变量应归为一 类.? 仍用Xi和Xj表示这两个变量的n次观测向量.考虑n维空间中这两点的距离:

因 (n-1)R=X 'X=(X1,…, Xp ) '(X1,…, Xp ), 故有

Xi 'Xj =(n-1) rij (i,j=1,…,p)

212(1?rij)?Xi?Xjn?1 1?Xi*?X*jn?12X??aitzt*it?1m zi 'zi=(n-1) λi

21(ai1?aj1)z1???(aim?ajm)zm n ? 1 (i=1,2,…,p)

???1(ai1?aj1)2????m(aim?ajm)2

zi'zj=0 (当i≠j 时 )

?(?1ai1??1aj1)2???(?maim??majm)2因第k个主成分Zk与原标准化变量Xi的相关系数为

?(Xi,Zk)??kaik??ik?ik也称为第k个主成分Zk对Xi的因子负荷量.

这时2(1- rij)≈(?i1-?j1)2+…+ (?im-?jm)2 ,

若rij≈1, 则有 (?i1-?j1)2+…+ (?im-?jm)2 ≈ 0 . ?? 考察m维空间的p个点Qi,其坐标为?? Qi=(?i1 ,?i2 ,...,?im ) (i=1,2,…,p) . 按距离最近准则对p个点进行分类.?

当m=2时,p个点可在平面上点出来,利用散布图可直观地给出指标的分类.?

指标(变量)分类---例子7.3.1

例7.3.1 服装定型分类问题??

为解决服装定型分类问题,对128个成年男子的身材进行测量,每人各测得16项指标:身高(X1)、坐高(X2)、胸围(X3)、头高(X4)、裤长(X5)、下档(X6)、手长(X7)、领围(X8)、前胸(X9)、后背(X10)、肩厚(X11)、肩宽(X12)、袖长(X13)、肋围(X14)、腰围(X15)和腿肚(X16).16项指标的相关阵R见表7.5(因相关阵为对称阵,只给出相关阵的上三角部分).试从相关阵R出发用PRINCOMP过程进行主成分分

指标(变量)分类---例子7.3.1的sas程序

data d731(type=corr); 自动变量_name_规定变量名X1-X16 input _name_ $ x1-x16;

_type_ = 'corr'; 自动变量_type_的值指定 cards; 数据类型为′CORR′.cards; x1 1.0 0.79 0.36 0.96 0.89.. .. 0.25 0.51 0.21 x2 . 1.00 0.31 0.74 0.58….. 0.17 0.35 0.16


第七章 主成分分析(5).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:浅谈施工安全与项目进度控制

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: