因a1≠0,故|Σ-λI|=0,求解(7.1.4),其实就是求Σ的特征值和特征向量问题.设λ=λ1是Σ的最大特征值,则相应的单位特征向量a1即为所求. 一般地,求X的第i主成分就是求Σ的第i大特征值对应的单位特征向量.?
定理7.1.1 设X=(X1,…,Xp)′是p维随机向量,且D(X)=Σ,Σ的特征值λ1≥λ2≥…≥λp ,A1,a2,…,ap为相应的单位正交特征向量,则X的第i主成分为?
Zi= ai'X (i=1,2,…,p).? 回顾附录中定理7.2
定理7.2 设B是p阶对称阵,λi=chi(B)是B的第i大的特征值,li 是相应于λi的B的标准化特征向量(i=1,…,p), x为任一非零p维向量,那么有
(1)x?Bx?p???1x?x(7.5)右边不等式的等号当x=cl1时成立,左边不等式的等号当x=clp时成立,这里c是非零常数.?
(2)记£2=£(lr+1,…,lp ),即£2是由lr+1,…,lp 张成的空间,则
x?Bxmax??r?1x?0x?xx?(7.6)且当x=clr+1 时达到最大值,这里c非零常数.? 定理7.1.1证明:
因Σ为对称阵,利用附录中定理7.2的结论(1),可知对任意非零
a??a向量a有 ? p ? ? ? 1 且最大值在a=a1时达到.故在a1'a1 =1的约
?aa束条件下,使得
?X)?a1??a1?ar(Z1)?Var(a1 V?1达极大值.
根据主成分的定义7.1.1,Z1= a1' X为X的第一主成分.对r=2,3,…,p,记£r=£ (ar,…,ap),利用附录中的定理7.2的结论(2)即得
a??amax??r且最大值在a=ar时达到。故在ar'ar =1的约a?0?aaa?束条件下, ar 满足:
??aj?ar??jaj??jar?aj?0(j?1,?,r?1)ar且使得 V?X)?ar??ar?ar(Zr)?Var(ar?r达极大值.根据主成分的定义7.1.1,Zr= ar' X为X的第r主成分. 定理7.1.1的推论:
设Z=(Z1, Z2 ,…, Z p )′为p维随机向量,则其分量Zi (i=1,2,…, p) 依次是X的第i主成分的充分必要条件是:? ① Z=A'X,A为正交阵;?
② D(Z)=diag(λ1 , λ2 , … , λp ),即随机向量Z的协差阵为对角阵;?
③ λ1≥λ2≥…≥λp ≥0 . 主成分的性质
主成分Zi就是以Σ的单位特征向量ai为系数的线性组合,它们互不相关,且方差Var(Zi)= λi .
记Σ=(σij),Λ=diag(λ1,λ2,…,λp), 其中λ1≥λ2≥…≥λp为Σ的特征值, a1,a2,…,ap是相应的单位正交特征向量. 主成分向量Z = (Z1,…,Zp)′, 其中
Zi=ai'X (i=1,2,…,p)? 总体主成分有如下性质:
(1) D(Z)=Λ,即p个主成分的方差为: ? Var(Zi)=λi ,且它们是互不相关? (2)
pp??i?1pi?1ii???ii?1通常称??ii为原总体X的总方差,该性质说明原总体X的总方差可分解为不相关的主成分的方差和.
且存在 m ? p , 使 ? ? ii ? ? ? i即p个原变量所提供的总信息
i?1i?1pm(总方差)的绝大部分只须用前m个主成分来代替。这说明若前几个主成分集中了大部分信息,则后几个主成分的方差都很小,包含的信息也很少.
在实际应用时就可用前面较少的几个主成分来代替原p个变量来描述数据的变化.
(3)主成分Zk与原始变量Xi的相关系数
?(Zk,Xi)??kaik?ii(k,i?1,2,?,p)证明 : Var(Xi) =σii? Var(Zk) = λk Cov( Xi ,Zk )=Cov(ei'X, ak' X) = ei'Σ ak = ei' (λk ak )
= λk aik (ei是第i个元素为1,其余为0的
单位向量)
?(Zk,Xi)??kaik?ii?k??kaik?ii常把主成分Zk与原始变量Xi的相关系数称为因子负荷量(或因子载
荷量).利用因子载荷量,可对指标分类.如果把主成分与原始变量的相关系数列成表7.1的形式,则由相关系数的公式,还可得出性质(4)和(5).
(4)??2(Zk,Xi)?1(i?1,2,?,p)事实上,由 ? ? ? ? , ? ? ? A ? A ? , 故有 AA
?ai1?p2pp???kaik22?ii?(ai1,?,aip)???????kaik,即??(Zk,Xi)???1.?k?1k?1?a?k?1ii?ip?k?1p因Xi也可表成Z1,…,Zp的线性组合,且 Z1,…, Zp相互独立,由回归分析的知识, Xi 与 Z1,…,Zp的全相关系数的平方和等于1,即表7.1中每一行的平方和均为1.?
(5)??iip2(Zk,Xi)??k(k?1,.....p)因Zk可表成X1,…,Xp的线性组合,
i?1p但X1,…,Xp 一般有相关性,由Zk与Xi的相关系数的公式,可得出表7.1中Zk对应的每一列关于各变量方差的加权平方和为λk (即Var(Zk)=λk).? 主成分的贡献率
主成分分析的目的是为了简化数据结构(即减少变量的个数),故在实际应用中一般不用p个主成分,而选用前m(m
多大,这是一个很实际的问题.为此,我们引进贡献率的概念.? 定义7.1.2 称λk / [λ1 +... +λm +…+λp]为主成分Zk的贡献率; 又称 fm=[λ1 +λ2 +... +λm]/ [λ1 +λ2 +... +λm +…+λp] 为 主成分Z1,…,Zm(m
通常取m,使累计贡献率达到70%或80%以上,累计贡献率的大小表达m个主成分提取了X1,… ,Xp的多少信息,但它没有表达某个变量被提取了多少信息,为此又引入另一个概念.
定义7.1.3 前m个主成分Z1,…,Zm 对原变量Xi的贡献率υi(m) 定义为 Xi 与Z1,… ,Zm 的相关关系数的平方,它等于 ?
例7.1.1 设随机向量X=(X1,X2,X3)′的协差阵为
?1-20???Σ= ?-250?
?002???(m)i2?kaik????k?1iim??k?1m2(Zk,Xi)试求X的主成分及其对变量Xi的贡献率υi(i=1,2,3).
解:Σ的特征值为λ1=3+ 81/2, λ2=2, λ3=3-81/2.
由相应标准化特征向量可得出主成分:
Z1=0.383 X1-0.924X2 ,?Z2= X3 (X3本身就是一个主分量,
它与X1,X2不相关),Z3=0.924X1+0.383 X2.
当取m=1或m=2时,主成分对X的贡献率可达72.8%或97.85%.下表 列出m个主分量对变量Xi的贡献