第七章 主成分分析(2)

2019-03-11 15:20

因a1≠0,故|Σ-λI|=0,求解(7.1.4),其实就是求Σ的特征值和特征向量问题.设λ=λ1是Σ的最大特征值,则相应的单位特征向量a1即为所求. 一般地,求X的第i主成分就是求Σ的第i大特征值对应的单位特征向量.?

定理7.1.1 设X=(X1,…,Xp)′是p维随机向量,且D(X)=Σ,Σ的特征值λ1≥λ2≥…≥λp ,A1,a2,…,ap为相应的单位正交特征向量,则X的第i主成分为?

Zi= ai'X (i=1,2,…,p).? 回顾附录中定理7.2

定理7.2 设B是p阶对称阵,λi=chi(B)是B的第i大的特征值,li 是相应于λi的B的标准化特征向量(i=1,…,p), x为任一非零p维向量,那么有

(1)x?Bx?p???1x?x(7.5)右边不等式的等号当x=cl1时成立,左边不等式的等号当x=clp时成立,这里c是非零常数.?

(2)记£2=£(lr+1,…,lp ),即£2是由lr+1,…,lp 张成的空间,则

x?Bxmax??r?1x?0x?xx?(7.6)且当x=clr+1 时达到最大值,这里c非零常数.? 定理7.1.1证明:

因Σ为对称阵,利用附录中定理7.2的结论(1),可知对任意非零

a??a向量a有 ? p ? ? ? 1 且最大值在a=a1时达到.故在a1'a1 =1的约

?aa束条件下,使得

?X)?a1??a1?ar(Z1)?Var(a1 V?1达极大值.

根据主成分的定义7.1.1,Z1= a1' X为X的第一主成分.对r=2,3,…,p,记£r=£ (ar,…,ap),利用附录中的定理7.2的结论(2)即得

a??amax??r且最大值在a=ar时达到。故在ar'ar =1的约a?0?aaa?束条件下, ar 满足:

??aj?ar??jaj??jar?aj?0(j?1,?,r?1)ar且使得 V?X)?ar??ar?ar(Zr)?Var(ar?r达极大值.根据主成分的定义7.1.1,Zr= ar' X为X的第r主成分. 定理7.1.1的推论:

设Z=(Z1, Z2 ,…, Z p )′为p维随机向量,则其分量Zi (i=1,2,…, p) 依次是X的第i主成分的充分必要条件是:? ① Z=A'X,A为正交阵;?

② D(Z)=diag(λ1 , λ2 , … , λp ),即随机向量Z的协差阵为对角阵;?

③ λ1≥λ2≥…≥λp ≥0 . 主成分的性质

主成分Zi就是以Σ的单位特征向量ai为系数的线性组合,它们互不相关,且方差Var(Zi)= λi .

记Σ=(σij),Λ=diag(λ1,λ2,…,λp), 其中λ1≥λ2≥…≥λp为Σ的特征值, a1,a2,…,ap是相应的单位正交特征向量. 主成分向量Z = (Z1,…,Zp)′, 其中

Zi=ai'X (i=1,2,…,p)? 总体主成分有如下性质:

(1) D(Z)=Λ,即p个主成分的方差为: ? Var(Zi)=λi ,且它们是互不相关? (2)

pp??i?1pi?1ii???ii?1通常称??ii为原总体X的总方差,该性质说明原总体X的总方差可分解为不相关的主成分的方差和.

且存在 m ? p , 使 ? ? ii ? ? ? i即p个原变量所提供的总信息

i?1i?1pm(总方差)的绝大部分只须用前m个主成分来代替。这说明若前几个主成分集中了大部分信息,则后几个主成分的方差都很小,包含的信息也很少.

在实际应用时就可用前面较少的几个主成分来代替原p个变量来描述数据的变化.

(3)主成分Zk与原始变量Xi的相关系数

?(Zk,Xi)??kaik?ii(k,i?1,2,?,p)证明 : Var(Xi) =σii? Var(Zk) = λk Cov( Xi ,Zk )=Cov(ei'X, ak' X) = ei'Σ ak = ei' (λk ak )

= λk aik (ei是第i个元素为1,其余为0的

单位向量)

?(Zk,Xi)??kaik?ii?k??kaik?ii常把主成分Zk与原始变量Xi的相关系数称为因子负荷量(或因子载

荷量).利用因子载荷量,可对指标分类.如果把主成分与原始变量的相关系数列成表7.1的形式,则由相关系数的公式,还可得出性质(4)和(5).

(4)??2(Zk,Xi)?1(i?1,2,?,p)事实上,由 ? ? ? ? , ? ? ? A ? A ? , 故有 AA

?ai1?p2pp???kaik22?ii?(ai1,?,aip)???????kaik,即??(Zk,Xi)???1.?k?1k?1?a?k?1ii?ip?k?1p因Xi也可表成Z1,…,Zp的线性组合,且 Z1,…, Zp相互独立,由回归分析的知识, Xi 与 Z1,…,Zp的全相关系数的平方和等于1,即表7.1中每一行的平方和均为1.?

(5)??iip2(Zk,Xi)??k(k?1,.....p)因Zk可表成X1,…,Xp的线性组合,

i?1p但X1,…,Xp 一般有相关性,由Zk与Xi的相关系数的公式,可得出表7.1中Zk对应的每一列关于各变量方差的加权平方和为λk (即Var(Zk)=λk).? 主成分的贡献率

主成分分析的目的是为了简化数据结构(即减少变量的个数),故在实际应用中一般不用p个主成分,而选用前m(m

多大,这是一个很实际的问题.为此,我们引进贡献率的概念.? 定义7.1.2 称λk / [λ1 +... +λm +…+λp]为主成分Zk的贡献率; 又称 fm=[λ1 +λ2 +... +λm]/ [λ1 +λ2 +... +λm +…+λp] 为 主成分Z1,…,Zm(m

通常取m,使累计贡献率达到70%或80%以上,累计贡献率的大小表达m个主成分提取了X1,… ,Xp的多少信息,但它没有表达某个变量被提取了多少信息,为此又引入另一个概念.

定义7.1.3 前m个主成分Z1,…,Zm 对原变量Xi的贡献率υi(m) 定义为 Xi 与Z1,… ,Zm 的相关关系数的平方,它等于 ?

例7.1.1 设随机向量X=(X1,X2,X3)′的协差阵为

?1-20???Σ= ?-250?

?002???(m)i2?kaik????k?1iim??k?1m2(Zk,Xi)试求X的主成分及其对变量Xi的贡献率υi(i=1,2,3).

解:Σ的特征值为λ1=3+ 81/2, λ2=2, λ3=3-81/2.

由相应标准化特征向量可得出主成分:

Z1=0.383 X1-0.924X2 ,?Z2= X3 (X3本身就是一个主分量,

它与X1,X2不相关),Z3=0.924X1+0.383 X2.

当取m=1或m=2时,主成分对X的贡献率可达72.8%或97.85%.下表 列出m个主分量对变量Xi的贡献


第七章 主成分分析(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:浅谈施工安全与项目进度控制

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: