第七章主成分分析(3)

2019-03-11 15:20

?(Zk,Xi)??kaik?ii

(i?1,2,3;k?1,2) 标准化变量的主成分及性质

在实际问题中,不同的变量往往有不同的量纲,而通过Σ来求主成分首先优先照顾方差(σii)大的变量,有时会造成很不合理的结果,为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将变量标准化的方法. 即令?Xi*?Xi?E(Xi)Var(xi)?xi?ui?i(i?1,2......p)

标准化后的随机向量X*=(X1*,X2*,…, Xp*)′的协差阵Σ*就是原随机向量X的相关阵R.从相关阵R出发来求主成分,记为Z *=(Z1*,…,Zp*)′,则Z*与Z具有相似的性质. 把主成分Zk*(k=1,…,p)对变量Xi*的因子负荷量ρik=ρ(Zk*,Xi*)列成表7.2

§7.2 样本的主成分

在实际问题中,一般协差阵Σ未知,需要通过样本来估计.设X(t)=(xt1,…,xtp)′(t=1, …,n)为来自总体X的样本,记样本资料阵

?x11?x21X= ??.....??xn1?x12x22.....xn2....................?x(1)'?x1p??'?x2p??x(2)?? =?? .....??...???x(n)'?xnp????记样本协差阵为S,样本相关阵为R,并用S作为 Σ的估计或用R作为总体相关阵的估计. 样本主成分及其性质

假定每个变量的观测数据都已标准化(X=0),这时样本协差阵就是样本相关阵R, 且

R=S=离差阵 /(n-1) =X'X/(n-1)?

仍记R 阵的p个主成分为Z1,…,Zp , λ1≥λ2≥…≥λp≥0为R的特征根, a1,a2, …,ap为相应的标准化特征向量(记正交阵

A=(a1,…,ap) ).显然第i个样本主成分为 Zi=ai'X (i=1,…,p). 将第t个样品X(t) =(xt1,…, xtp)′的值代入Zi得样品t的第i个主成分得分 zti =ai'X(t) (i=1,…,p).

记Z(t) = (zt1, zt2 ,…, ztp)′ (t=1,…,n) = (a1'X(t) ,a2'X(t) ,…,ap'X(t) ) ′ = A'X(t)

称Z(t) 为第t个样品的主成分得分向量.

表7.3 原始数据和样本主成分得分

令

样本主成分得分阵Z和原始数据阵X有如下关系： Z = Z(1) ' =X(1) 'A

或 X = ZA' , 其中 Z(t) =A'X(t) ( t=1,2,…,n ) 样本主成分得分具有如下一些性质. (1) Z=(Z(1)+ Z(2)+…+ Z(n))/n

=(A'X(1) +A'X(2) +…+ A'X(n) )/n=A'X=0,

以下由样本主成分得分的协差阵来得出样本主成分的性质(1)的另一结论.

样本主成分得分的协差阵为 SZ = Z'Z/(n-1)

标准化变量的样本协差阵就是样本相关阵R,且 R = X'X/(n-1)?

R阵的p个特征根λ1≥λ2 ≥ …≥λp 相应的标准化特征向量为

a1,a2, …,ap 。

记正交阵A= (a1,…,ap) .则有A'RA=diag(λ1,λ2 ,…,λp) 又知 Z=XA，则SZ = Z'Z/(n-1)=A'X'XA /(n-1) = A'RA=diag(λ1,λ2 ,…,λp) =∧ ? Z'Z= (n-1)∧ ?

?z1'???10?????????(z1,z2,...,zp)?(n?1)???z'??0??p??p??zi 'zi=(n-1) λi (i=1,2,…,p) zi'zj=0 (当i≠j 时 ) 上式说明样本主成分得分的样本均值为0,样本协差阵为对角阵.当i≠j 时，第i个主成分得分向量zi与第j个主成分得分zj是相互正交（2）??i?p因 A'RA=diag(λ1,λ2 ,…,λp)

i?1p

??i?1pi?tr(A'RA)?tr(RAA')?tr(R)?p称λk /p为样本主成分Zk的贡献率;又称 fm=[λ1+…+λm]/p为样本主成分Z1,…,Zm (m

如果我们只取前m个主成分(m

则当bjk=ajk(k=1,…,m)时，可使回归方程的残差平方和达最小值.

而且回归方程的决定系数R2(j) =υj(m).

我们把υj(m)称为m个主成分对原变量Xj的贡献率,υj(m)的大小反映了m个主成分能够反映Xj的变差的比例.?

把表7.3给出的原始变量的观测数据和前m个主成分的得分数据作为以上模型（*）中因变量X1,…,X p和自变量Z1,…,Zm的观测数据.问题化为：按最小二乘准则求参数矩阵B：?

?b11?b1m???B? ??? ? ? ，使得残差平方和Q(B)达最小.

?b??b?x11?x1p?p1z11?pm?z1m???记 ????*Z??????,X??????, ?x??z??z?xnm?np??n1?n1

则多对多的回归模型（*）的矩阵形式为： X = Z* B' + E

由多因变量的回归分析(参见第四章)的理论知：参数矩阵B的最小二乘估计为

B' = (Z*' Z* )-1 Z*' X 记A*= (a1,…,am) , A2= (am+1,…,aP)则由 Z = ( Z*|Z2 ) =XA=X (A*|A2 ) 可得 Z* =XA* 且因 A*'RA*=diag(λ1,λ2 ,…,λm), 于是 Z*' Z* = A*'X'XA* =(n-1)A*'RA*

=(n-1)diag(λ1,λ2 ,…,λm)

共8页:

第七章主成分分析(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档

第七章 主成分分析(3)

第七章主成分分析(3)