以上输出列表中把30个观测按第一主成分从小到大重新排序后的输出结果.从这里可以得到分为三组时各组学生的更多的信息如下:? G1={11,15,29,10,28,6,24,14,2,27,18} G2={4,30,22,1,16,26,23,21,8,9,7,17} G3={20,13,19,12,5,3,25}
若考虑用Z1 ,Z2进行聚类,这就是主成分聚类方法.
以下不作要求
§7.3主成分分析的应用
主成分分析方法把p维数据简化为m(m?p)维数据后,进一步地可用于变量的分类,样品的分类,对样品进行排序或对系统进行评估,以及主成分回归,主成分聚类,多维正态数据的主成分检验等方面。 设n次观测数据阵X已标准化,这时样本协差阵就是样本相关阵R, R的特征值为λ1≥λ2 ≥ …≥λp 相应的标准化特征向量为a1,a2, …,ap 。样本主成分为 Zi=ai'X (i=1,…,p).
设m为满足累计贡献率>P0(一般取1≥P0≥0.7 )的最小正整数,取前m个主成分Z1 ,Z2 ,… ,Zm,由样本观测数据X(i) (i=1,2,…n)可求得
m个主成分的得分值zij :
zij?a?,2,...,m;i?1,2,...,n)jX(i)(j?1m个主成分的得分向量记为?z1j??z2jzj?????z?nj???????(j?1,2,...,m)m个主成分的得分矩阵为*?z11z12?z1m??Z(1)????*??z21z22?z2m??Z(2)?*Z?????(z1,z2,...,zm)????????????zz?z??Z*?nm??n1n2?(n)?利用样本主成分的性质(3),Xk由前m个主成分Z1 ,Z2 ,… ,Zm的最佳(残差平方和最小)表示式为 X k?ak1Z1?ak2Z2?...?akmZm(k?1,2,...,p)把Z*(i )(i=1,2,…,n)代入上式,可得
*xik?ak1zi1?ak2zi2?...?akmzim(i?1,2,...,n;k?1,2,...,p)由此可得出由主成分得分值估计变量Xk的得分向量.记
****X?(x,x,...,x k1k2knk)'(k?1,...,p)其中
x?ak1zi1?...?akmzim(i?1,...,n)*ik * *
?x11...x1p???* X ? ? ? ? ? ( X * ,..., X * ) (7.3.2) ? ?1p?x*...x*? np??n1
X=ZA'= ( Z*|Z2 ) ( A*|A2 ) ' = Z* (A*)' + Z2 A2' =X* + Z2 A2'
*2**(x?x)?tr[(X?X)'(X?X)]??ijiji?1j?1np?tr[(Z2A2')'(Z2A2')]?tr(Z2'Z2)?tr(A2'X'XA2)?tr[A2'(n?1)RA2]??1??m?10?0?????A'RA?????,故A2'RA2????0??0???p?p???*2(x?x??ijij)?....?tr[(n-1)A2'RA2]i?1j?1np因
所以,
??m?1??tr(n?1)??0?0?p????(n?1)??kk?m?1?p??当选取合适的m,可使得后面的p-m个?i的和很小,这时就有
指标(变量)分类
如果第i个变量和第j个变量的相关系数rij≈1,显然这两个变量应归为一 类.? 仍用Xi和Xj表示这两个变量的n次观测向量.考虑n维空间中这两点的距离:
因 (n-1)R=X 'X=(X1,…, Xp ) '(X1,…, Xp ), 故有
Xi 'Xj =(n-1) rij (i,j=1,…,p)
212(1?rij)?Xi?Xjn?1 1?Xi*?X*jn?12X??aitzt*it?1m zi 'zi=(n-1) λi
21(ai1?aj1)z1???(aim?ajm)zm n ? 1 (i=1,2,…,p)
???1(ai1?aj1)2????m(aim?ajm)2
zi'zj=0 (当i≠j 时 )
?(?1ai1??1aj1)2???(?maim??majm)2因第k个主成分Zk与原标准化变量Xi的相关系数为
?(Xi,Zk)??kaik??ik?ik也称为第k个主成分Zk对Xi的因子负荷量.
这时2(1- rij)≈(?i1-?j1)2+…+ (?im-?jm)2 ,
若rij≈1, 则有 (?i1-?j1)2+…+ (?im-?jm)2 ≈ 0 . ?? 考察m维空间的p个点Qi,其坐标为?? Qi=(?i1 ,?i2 ,...,?im ) (i=1,2,…,p) . 按距离最近准则对p个点进行分类.?
当m=2时,p个点可在平面上点出来,利用散布图可直观地给出指标的分类.?
指标(变量)分类---例子7.3.1
例7.3.1 服装定型分类问题??
为解决服装定型分类问题,对128个成年男子的身材进行测量,每人各测得16项指标:身高(X1)、坐高(X2)、胸围(X3)、头高(X4)、裤长(X5)、下档(X6)、手长(X7)、领围(X8)、前胸(X9)、后背(X10)、肩厚(X11)、肩宽(X12)、袖长(X13)、肋围(X14)、腰围(X15)和腿肚(X16).16项指标的相关阵R见表7.5(因相关阵为对称阵,只给出相关阵的上三角部分).试从相关阵R出发用PRINCOMP过程进行主成分分
指标(变量)分类---例子7.3.1的sas程序
data d731(type=corr); 自动变量_name_规定变量名X1-X16 input _name_ $ x1-x16;
_type_ = 'corr'; 自动变量_type_的值指定 cards; 数据类型为′CORR′.cards; x1 1.0 0.79 0.36 0.96 0.89.. .. 0.25 0.51 0.21 x2 . 1.00 0.31 0.74 0.58….. 0.17 0.35 0.16