?(Zk,Xi)??kaik?ii
(i?1,2,3;k?1,2) 标准化变量的主成分及性质
在实际问题中,不同的变量往往有不同的量纲,而通过Σ来求主成分首先优先照顾方差(σii)大的变量,有时会造成很不合理的结果,为了消除由于量纲的不同可能带来的一些不合理的影响,常采用将变量标准化的方法. 即令?Xi*?Xi?E(Xi)Var(xi)?xi?ui?i(i?1,2......p)
标准化后的随机向量X*=(X1*,X2*,…, Xp*)′的协差阵Σ*就是原随机向量X的相关阵R.从相关阵R出发来求主成分,记为Z *=(Z1*,…,Zp*)′,则Z*与Z具有相似的性质. 把主成分Zk*(k=1,…,p)对变量Xi*的因子负荷量ρik=ρ(Zk*,Xi*)列成表7.2
§7.2 样本的主成分
在实际问题中,一般协差阵Σ未知,需要通过样本来估计.设X(t)=(xt1,…,xtp)′(t=1, …,n)为来自总体X的样本,记样本资料阵
?x11?x21X= ??.....??xn1?x12x22.....xn2....................?x(1)'?x1p??'?x2p??x(2)?? =?? .....??...???x(n)'?xnp????记样本协差阵为S,样本相关阵为R,并用S作为 Σ的估计或用R作为总体相关阵的估计. 样本主成分及其性质
假定每个变量的观测数据都已标准化(X=0),这时样本协差阵就是样本相关阵R, 且
R=S=离差阵 /(n-1) =X'X/(n-1)?
仍记R 阵的p个主成分为Z1,…,Zp , λ1≥λ2≥…≥λp≥0为R的特征根, a1,a2, …,ap为相应的标准化特征向量(记正交阵
A=(a1,…,ap) ).显然第i个样本主成分为 Zi=ai'X (i=1,…,p). 将第t个样品X(t) =(xt1,…, xtp)′的值代入Zi得样品t的第i个主成分得分 zti =ai'X(t) (i=1,…,p).
记Z(t) = (zt1, zt2 ,…, ztp)′ (t=1,…,n) = (a1'X(t) ,a2'X(t) ,…,ap'X(t) ) ′ = A'X(t)
称Z(t) 为第t个样品的主成分得分向量.
表7.3 原始数据和样本主成分得分
令
样本主成分得分阵Z和原始数据阵X有如下关系: Z = Z(1) ' =X(1) 'A
或 X = ZA' , 其中 Z(t) =A'X(t) ( t=1,2,…,n ) 样本主成分得分具有如下一些性质. (1) Z=(Z(1)+ Z(2)+…+ Z(n))/n
=(A'X(1) +A'X(2) +…+ A'X(n) )/n=A'X=0,
以下由样本主成分得分的协差阵来得出样本主成分的性质(1)的另一结论.
样本主成分得分的协差阵为 SZ = Z'Z/(n-1)
标准化变量的样本协差阵就是样本相关阵R,且 R = X'X/(n-1)?
R阵的p个特征根λ1≥λ2 ≥ …≥λp 相应的标准化特征向量为
a1,a2, …,ap 。
记正交阵A= (a1,…,ap) .则有A'RA=diag(λ1,λ2 ,…,λp) 又知 Z=XA,则SZ = Z'Z/(n-1)=A'X'XA /(n-1) = A'RA=diag(λ1,λ2 ,…,λp) =∧ ? Z'Z= (n-1)∧ ?
?z1'???10?????????(z1,z2,...,zp)?(n?1)???z'??0??p??p??zi 'zi=(n-1) λi (i=1,2,…,p) zi'zj=0 (当i≠j 时 ) 上式说明样本主成分得分的样本均值为0,样本协差阵为对角阵.当i≠j 时,第i个主成分得分向量zi与第j个主成分得分zj是相互正交 (2)??i?p因 A'RA=diag(λ1,λ2 ,…,λp)
i?1p
??i?1pi?tr(A'RA)?tr(RAA')?tr(R)?p称λk /p为样本主成分Zk的贡献率;又称 fm=[λ1+…+λm]/p为样本主成分Z1,…,Zm (m
如果我们只取前m个主成分(m
则当bjk=ajk(k=1,…,m)时,可使回归方程的残差平方和达最小值.
而且回归方程的决定系数R2(j) =υj(m).
我们把υj(m)称为m个主成分对原变量Xj的贡献率,υj(m)的大小反映了m个主成分能够反映Xj的变差的比例.?
把表7.3给出的原始变量的观测数据和前m个主成分的得分数据作为以上模型(*)中因变量X1,…,X p和自变量Z1,…,Zm的观测数据.问题化为:按最小二乘准则求参数矩阵B:?
?b11?b1m???B? ??? ? ? ,使得残差平方和Q(B)达最小.
?b??b?x11?x1p?p1z11?pm?z1m???记 ????*Z??????,X??????, ?x??z??z?xnm?np??n1?n1
则多对多的回归模型(*)的矩阵形式为: X = Z* B' + E
由多因变量的回归分析(参见第四章)的理论知:参数矩阵B的最小二乘估计为
B' = (Z*' Z* )-1 Z*' X 记A*= (a1,…,am) , A2= (am+1,…,aP)则由 Z = ( Z*|Z2 ) =XA=X (A*|A2 ) 可得 Z* =XA* 且因 A*'RA*=diag(λ1,λ2 ,…,λm), 于是 Z*' Z* = A*'X'XA* =(n-1)A*'RA*
=(n-1)diag(λ1,λ2 ,…,λm)