主成分分析与因子分析方法的比较
The Comparison of Principal Component Analysis Method and Factor
Analysis Method
内容摘要:主成分分析和因子分析都是简化数据结构的重要方法,二者既有区别也有联系。二者都可以运用SPSS软件求解分析,同时,主成分分析还可以应用matlab软件编程求解。文章首先从概念上介绍这两种方法,说明两种方法的原理;同时,通过这两种方法对安徽省15个县的经济发展的指标数据进行实证分析和比较,在两种模型的建立与求解过程中,不同方法得到的排名结果不同。再结合两种方法的原理及应用的区别,就四个方面具体比较两种方法。分析比较之后,得出明显的结论:两种方法的排名结果差别比较大,这对于建立完善的评估体系是无益的,对于经济社会的发展起不到应有的作用。因此,熟悉两种方法的区别,并判别不同问题的使用方法,才能在实际应用时选择更实用更合理的方法,对经济现象进行更有效的分析和评价。
关键词: 主成分分析;因子分析;SPSS;matlab;经济发展
目 录
主成分分析与因子分析方法的比较 ......................................... 1 1. 引言 ................................................................ 1
1.1 选题背景 ........................................................ 1 1.2 国内研究成果 .................................................... 1 1.3 本文研究思路 .................................................... 2 2. 主成分分析与因子分析原理 ........................................... 2
2.1 主成分分析原理 .................................................. 2 2.2 因子分析原理 .................................................... 3 3. 实证分析 ............................................................ 4
3.1 数据准备 ........................................................ 4 3.2 主成分分析 ...................................................... 4 3.3 因子分析 ........................................................ 6 4. 结论 ................................................................ 8
4.1 结果分析 ........................................................ 8 4.2 主成分与因子分析的区别 .......................................... 9 5.结束语 .............................................................. 10 参考文献 .............................................. 错误!未定义书签。 附录 1 ............................................... 错误!未定义书签。 附录 2 ............................................... 错误!未定义书签。 附录 3 ............................................... 错误!未定义书签。 附录 4 ............................................... 错误!未定义书签。
1. 引言
在分析省内几个地区的发展状况时,为了尽可能全面反映评价对象的整体情况,需要选取恰当的、客观的评价指标。由于数据的复杂性, 综合评价通常涉及到多指标,这不仅会增加评价的工作量而且会因评价指标间的相关性造成评价信息相互干扰,从而难以客观地反映评价对象的真实属性。
1.1 选题背景
在实际工作中,需要精简指标,将原来的指标重新组合成一组相互无关的综合指标以此来尽可能多地反映原来指标信息量,主成分分析与因子分析为解决此类问题提供了很好的方法。
主成分分析和因子分析都是简化数据结构的重要方法,二者既有区别也有联系。主成分分析方法是一种将多维因子纳入同一系统进行定性、定量化研究,理论比较完善的多元统计分析方法。研究如何通过少数几个主成分来解释多变量的方差、协方差结构的分析方法,也就是求出少数几个主成分,使它们尽可能多地保留原始变量的信息,且彼此不相关。因子分析是研究如何以最少的信息丢失,将众多原始变量浓缩成少数几个因子变量,以及如何使因子变量具有较强的可解释性的一种多元统计分析方法。这两种方法是处理多变量、大样本时经常采用的方法,其二者的最终目的都是降维。
但这两种综合评价方法往往易混淆,因此比较两种分析方法的异同点对于解决问题有重要作用。
1.2 国内研究成果
主成分分析方法和因子分析方法都是寻求从高维空间到低维空间的映射的方法,国内文献中就其区别研究,主要分为以下几种:统计依据、数学模型、计算方法、综合指标的选取等方面比较它们的异同①,以理论的分析具体理解两种分析方法。
另外,国内文献中,也从主成分分析法、因子分析法的基本思想、使用方法及统
①钱道翠:《综合评价主成分分析方法与因子分析方法的比较》,浙江:浙江统计,2004年,第32页。
1
计量的分析等多角度进行比较,并辅以实例分析研究②。
1.3 本文研究思路
本文给出选出的安徽省内15个县的经济指标数据,由于指标过多,并可能存在共线性问题,考虑利用主成分分析方法和因子分析方法进行比较综合评价。
以实际数据建立模型求解分析,运用matlab软件实现主城分析建模求解,运用spss软件分析因子分析的结果,在建模求解、结果分析的过程中比较两种评价方法的特点。
2. 主成分分析与因子分析原理 2.1 主成分分析原理
主成分分析法①是一种降维的统计方法,它借助于一个正交变换,将其分量相关的原随机向量转化成其分量不相关的新随机向量,这在代数上表现为将原随机向量的协方差阵变换成对角形阵,在几何上表现为将原坐标系变换成新的正交坐标系,使之指向样本点散布最开的p个正交方向,然后对多维变量系统进行降维处理,使之能以一个较高的精度转换成低维变量系统,再通过构造适当的价值函数,进一步把低维系统转化成一维系统。
设X1,X2,?,XP为实际问题的p个n维随机变量(p项指标)记X?(X1,X2,?,XP),其协方差矩阵为
??(?ij)p?E[(X?E(X))(X?E(X))T]
它是一个p阶的非负定矩阵。设变量X1,X2,?,XP经过线性变换后得到新的综合变量Y1,Y2,?,YP,即
?Y1?l11x1?l12x2???l1pxp?Y?lx?lx???lx?22112222pp ?????Yp?lp1x1?lp2x2???lppxp其中系数li?(li1,li2,?,lip)(i?1,2,?,p)为常数向量。且系数需要满足以下三个条件:
(1)系数向量是单位向量,即 li1?li2??lip?1,i?1,2,?,p (2)不同的主成分不相关,即 cov(Yi,Yj)?0,(i?j,i,j?1,2,?,p)
② 王 芳:《主成分分析与因子分析的异同比较及应用》,南京:统计教育,2003年,第14页。
①王 芳:《主成分分析与因子分析的异同比较及应用》,南京:统计教育,2003年,第14页。
2
222
(3)各主成分的方差递减,即 var(Y1)?var(Y2)???var(Yp)?0
称Y1为第一主成分,Y2为第二主成分,依此类推,YP称为第p个主成分。主成分又叫主分量。这里lij我们称为主成分的系数。
2.2 因子分析原理
因子分析①是研究从变量群中提取共性因子的统计技术,可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
例如:有n个地理样本,每个样本共有p个指标变量,构成一个n?p阶的地理数据矩阵。当p较大时,在p维空间中考察问题比较麻烦。这就需要进行降维处理,即用较少几个综合指标代替原来指标,而且使这些综合指标既能尽量多地反映原来指标所反映的信息,同时它们之间又是彼此独立的。记x1,x2,…,xP为原变量指标,
z1,z2,…,zm(m?p)为新变量指标(主成分),则其线性组合为:
?z1?l11x1?l12x2???l1pxp??z2?l21x1?l22x2???l2pxp????zm?lm1x1?lm2x2???lmpxp?
lij是原变量在各主成分上的载荷。
因子分析过程一般经过以下步骤(可以由SPSS18.0软件直接得出结果): ①原始数据的标准化,标准化的公式为xij?(xij?xj)/?j,其中xij为第i个样本的第j个原指标值,而xj和?j分别为j指标的均值和标准差。标准化的目的在于消除不同变量的量纲的影响,而且标准化转化不会改变变量的相关系数;
②计算标准化数据的相关系数阵,求出相关系数矩阵的特征值和特征向量; ③进行正交变换,使用方差最大法。其目的是使因子载荷两极分化,而且旋转后的因子仍然正交;
④确定因子个数,计算因子得分,进行统计分析。
①唐功爽:基于SPSS的主成分分析与因子分析的辨析[J].统计教育,2007年第2 期,第12页。
3