应用多元统计分析
第七章 主成分分析
目 录
§7.1 总体的主成分 §7.2 样本的主成分
多变量分析(Multivariate Analysis)是处理多变量(多指标)的统计问题。
多个变量之间常存在相关性,人们希望用较少不相关的变量来代替原来较多且相关的变量。
主成分就是要从原变量的各种线性组合中找出能集中反映原变量信息的综合变量。
第七章§7.1 总体的主成分
什么是主成分分析
主成分分析是将多个指标化为少数几个综合指标的一种统计分析方法. 在实际问题中,研究多指标的问题是经常遇到的问题.由于变量个数太多,并且彼此之间存在着一定的相关性,势必增加分析问题的复杂性.主成分分析就是设法把原来的多个指标重新组合成较少几个新的互不相关的综合变量来代替原来的变量;而且这几个综合变量又能够尽可能多地反映原来变量的信息. 利用这种降维的思想,产生了主成分分析、因子分析、典型相关分析等统计方法.
设X=(X1,…,Xp)′是p维随机向量,均值向量E(X)=μ,协差阵
D(X)=Σ.考虑它的线性变换:
?z1?a1'x?a11x1?a22x2?..........?ap1xp?'z?a?21x?a12x1?a22x2?..........?ap2xp? .............??zp?ap'x?a1px1?ap2x2?..........?apxpp?易见:
Var(Zi)?ai?ai(i?1,2,.....p)Cov(Zi,Zj)?ai'?zj(i,j?1.....p)'
假如我们希望用Z1来代替原来的p个变量X1,…,Xp ,这就要求Z1尽可能多地反映原来p个变量的信息,这里所说的“信息”用什么来表达呢?最经典的方法是用Z1的方差来表达. Var(Z1)越大,表示Z1包含的信息越多.由(7.1.2)式看出,对a1必须有某种限制.否则可使Var(Z1)→∞.常用的限制是:a1'a1 =1. 若存在满足以上约束的a1,使Var(Z1)达最大, Z1就称为第一主成分(或主分量
如果第一主成分不足以代表原来p个变量的绝大部分信息.考虑X的第二个线性组合Z2 . 为了有效地代表原变量组的信息,Z1已体现(反映)的信息不希望在Z2中出现,用统计术语来讲,就是要求 Cov(Z2,Z1)=a2'Σa1=0. (7.1.3)
于是求Z2时,就是在约束a2'a2=1和(7.1.3)下,求a2使Var(Z2)达最大,所求之Z2称为第二主成分,类似地可求得第三主成分,第四主成分,….,第p主成分。?
换言之,若原数据有p个变量,则恰好可得到p个主成分: 1. 每个主成分都是原变量的线性组合; 2. 不同主成分间互不相关(互相正交);
3. 主成分以其方差减少次序排列: 第一主成分具有最大方差,
第二主成分是与第一主成分正交的原变量的线性组合中具有最大方差者,
其余主成分都有类似的性质.
或者说,若原变量包含有一定的信息,则全体主成分包含与原变量相同的信息. 方差反映了变量取值的离散程度,方差大小表示了变量包含信息的多少.
第一主成分包含了尽可能多的信息, 不同的主成分包含的信息互不重复;
第二主成分包含除第一主成分外剩余信息中尽可能多的信息; 其余主成分都有类似的性质. 主成分的定义
定义7.1.1 设X=(X1,…,Xp)′为p维随机向量.称 Zi=ai'X 为X的第
i 主成分(i=1,2,…,p),如果:? ① ai'ai=1 (i=1,2,…,p);?
② 当i >1时 ai'Σaj=0 ( j=1,…,i-1); ? ③ Var(Zi)= Max Var(α'X). ?? α'α=1,α'Σaj =0(j=1,…,i-1) 主成分的几何意义
从代数学观点看主成分就是p个变量的一些特殊的线性组合,而从几何上看这些线性组合正是把X1,…,Xp构成的坐标系旋转产生的
新坐标系,新坐标轴使之通过样本变差最大的方向(或者说具有最大的样本方差).
设有n个观测,每个观测有p个变量X1,…,Xp , 它们的综合指标(主成分)记为Z1,…,Zp .
当p=2时原变量为X1, X2.设(X1, X2 )服从二元正态分布,则样品点X(i) =(xi1, xi2 ) (i=1,2,…n)的散布图(见下面图形)在一个椭园内分布着
对于二元正态随机向量,n个点散布在一个椭园内(当X1, X2相关性越强,这个椭园就越扁).
若取椭园的长轴为坐标轴Z1,椭园的短轴为Z2,这相当于在平面上作一个坐标变换,即按逆时针方向旋转一个角度a, 根据旋转变换公式,新老坐标之间有关系:
Z1=Cos aX1+ Sin aX2 Z2= -Sin aX1+ Cos aX2
Z1 Z2 是原变量X1和X2 的特殊线性组合.
从图上可以看出二维平面上n个点的波动(用二个变量的方差和
表示)大部分可以归结为在Z1方向的波动,而在Z2 方向上的波动很小,可以忽略.这样一来,二维问题可以降为一维了,只取第一 个综合变量Z1即可,而Z1是椭园的长轴.
一般情况,p个变量组成p维空间,n个样品点就是p维空间的n个点.对于p元正态分布变量来说,找主成分的问题就是找p维空间中椭球的主轴问题. 主成分分析的内容
主成分分析的计算一般是从原变量的协差阵或相关矩阵出发进行,包含以下内容:
1. 各主成分的构成 ;
2. 各主成分的方差及其在总方差中所占的比例(贡献率) ; 3. 每个观测在各个主成分下的得分值; 4. 各主成分与原变量的相关性 . 主成分的求法
设p维随机向量X的均值E(X)=0,协差阵D(X)=Σ>0.由定义7.1.1,求第一主成分Z1= a1'X的问题就是求a1=(a11,a21,…,ap1)′,使得在a1'a1=1下,Var(Z1)达最大.
这是条件极值问题,用拉格朗日乘数法.令? φ(a1)=Var(a1'X)-λ(a1'a1-1) = a1'Σa1-λ(a1'Ipa1-1),
?????a由??1????????2(???I)a1?0?a1a1?1?0'