图4-1 变数xi和变数xj之间的关系图
由因素模型所导出的变量间的相关系数可以用来辅助判断因素解是否合适,如果由原始观测资料所计算出的相关系数和从模型中所导出的变量间的相关系数相差很小,那么我们可以认为模型非常适切的拟合了原始观测资料,因素解是合适的。因素分析模型是从解释变量之间的相关关系出发的,他的最佳解即是原始变量之间的实际相关关系。
■ 共通性(Communality)
所谓共通性是指原始变量的变异数中由共同因素所决定之部分所占的比例。变数xi的共通性记做hi2。当共同因素之间彼此正交时,共通性等于和该变量有关的因素负荷的平方和,用方程式可表示为:
22hi2??aij?ai21?ai2???aik
j?1k (4-2)
由式4-2可轻易理解,变数xi的共通性即是因素负荷矩阵A中第i列中所有元素的平方和。读者对4-2的公式也可这样来记忆,共通性通常是以hi2来代表,为何要使用「h」这个字母,因为水平这个字的英文为「horizontal」,引申到矩阵中的话即代表一列,故第i个变量的共通性即为负荷矩阵A中第i列中所有元素的平方和。
由于变量xi是标准化变量,所以变量xi的变异数可以表示成1?hi2?ui2,也就是说原始变量xi的变异数可由两个部分来加以解释:第一部分为共同因素所决定,即共通性hi2,它是变数xi之
变异数能被共同因素所能解释说明的部份,其说明了所有因素对变量xi的解释贡献程度。共通性越大,代表变量能被因素说明的程度也越高。共通性越接近1,代表因素解释说明了变量xi的大部分变异数,也就是说,如果我们使用因素来描述变量xi时,则变数xi的信息遗失较少,第二部分则由特殊因素所决定,即特殊因素的平方,它反映了变量xi的变异数中不能由所有因素解释说明的部份,ui2越小则说明变量xi的信息遗失越少。总之,变数xi的共通性描述了所有因素对变量xi所蕴含之信息的解释程度,是评价变量xi之信息遗失程度的重要指针。如果大部份之原始变量的共通性均较高(如高于0.8),则代表所萃取出的因素确实能够反映原始变量的大部分(80%以上)的信息,而仅有较少的信息遗失,因此因素分析的效果较好。所以,共通性是衡量因素分析效果的重要依据。对于上面所举的五个原始变量、两个共同因素的例子,可计算出每个变量的共通性见表4-1。h12?0.9616表示f1和f2两个因素解释了x1变量之信息量的96.16%。共通性这个指针以原始变量为中心,它的意义在于说明如果用共同因素替代原始变量后,原来每个变量的信息被保留的程度。
表4-1 因素负荷矩阵、特征值、共通性与因素贡献度 x1 f1 f2 hi2 0.96 0.2 0.9616 x2 x3 0.87 0.17 0.57 0.86 2.77 0.55 0.29 0.88 0.76 0.34 1.59 0.32 0.8410 0.8033 0.9025 0.8552 x4 x5 特征值(Vk) Vk/5
■ 因素的贡献程度
每个共同因素对数据的解释能力,可以用该因素所解释的总变异数来衡量,通常称此为该因素的贡献度(Contributions),记为Vk。它等于和该因素有关的因素负荷的平方和,即
2 Vk??aiki?1p (4-3)
因素分析中的特征值是每个变量在某一共同因素之因素负荷量的平方和,因此特征值其实就等于Vk,而所有共同因素的总贡献度则为:
V?
?Vp
p?1k (4-4)
然而在实际的研究中更常用相对性的指标,即每个因素所解释的变异数占所有变量总变异数的比例。相对指标衡量了共同因素的相对重要性。假设p是表示原始变量之数量,则Vk/p表示了第k个因素所解释的变异数的比例,而V/p则表示所有共同因素累积解释的变异数比例,它可以用来作为因素分析结束的判断指标。如表4-1,在上例中,V1/5?0.55、V2/5?0.32这代表第一个因素解释了所有变量总变异数的55%,第二个因素解释了上述总变异数的32%,两个因素一共解释了总变异数的87%。Vk/p的值越高,代表相对应因素fk的重要性越高。因此,因素的变异数贡献和变异数贡献率是衡量因素重要性的关键指标。
4-4 因素分析的基本步骤
进行因素分析时,通常包括以下四个主要步骤:
1、因素分析的前提条件
由于因素分析的主要目的是简化数据或者找出基本的数据结构,此即将原始变量中的信息重迭部分萃取出来并整合成因素,进而最终实现减少变量个数与萃取出因素的目的。因此要能够进行因素分析,必须要求原始变量之间应存在较强的相关关系。否则,如果原始变量间是相互独立、
不存在信息重迭,那么也就无法将其整合和缩简,也就无须进行因素分析了。所以本步骤的主要目的就是希望透过各种方法分析、检验原始变量间是否存在相关关系,是否适合于进行因素分析。一般而言,如果相关矩阵中的大部分相关系数都小于0.3,则不适合做因素分析。
2、因素萃取
将原始变量整合成少数几个因素是因素分析的主要目的。本步骤中就是要去确定因素的个数和求因素解的方法。
3、使因素容易命名与具可解释性
将原始变量整合为少数几个因素后,如果因素的实质涵义无法厘清,则极不利于进一步的分析。本步骤就是希望透过各种方法(因素旋转)使萃取出来的因素,其实质涵义能够清楚的表达出来,进而使研究者能根据其涵义而对因素加以命名并深入的解释它。
4、计算各样本的因素得分
因素分析的最终目标是减少变量个数,以便在进一步的分析中用较少的因素代替原始变量参与数据分析与建模。本步骤将透过各种方法计算各样本在各因素上的得分,并以这些因素得分替代原始变量值,为进一步的分析奠定基础。下面将依次对上述基本步骤进行详细讨论。 4-4-1 因素分析的前提条件
因素分析的目的是从众多的原始变量中求同舍异整合出少数几个具有代表性的因素,在这过程中,需要一个潜在的前提条件,即原始变量之间应具有较强的相关关系。这个道理并不难理解,如果原始变量之间不存在较强的相关关系,那么就无法从中整合出能够反映某些变量共同特性的几个较少的共同因素。因此,一般在因素分析时需先验证因素分析的前提条件,即验证原始变量间是否相关。SPSS软件中提供了下列几种方法帮助研究者判断观测资料是否适合做因素分析。
■ 反映象相关矩阵(Anti-image correlation matrix)
反映象相关矩阵中各元素的值等于负的偏相关系数。偏相关系数是控制其它变量不变,计算一个自变量对因变量的净相关系数。如果原始变量之间确实存在较强的相互重迭性以及互相影响,也就是说,如果原始变量中确实能够萃取出共同因素,那么变量之间的偏相关系数应该很小,因为它与其它变量重迭的解释影响被扣除掉了。所以如果反映象相关矩阵中大部分元素的值都较大的话,应该考虑该观测数据可能不适合做因素分析。
反映象相关矩阵的对角在线的元素为某变量的MSA(Measure of Sample Adequacy)统计量,其数学定义为:
??ij2MSAi?j?i??ij2??pij2j?ij?i (4-5)
其中,?ij是变数xi和其它变量xj(j?i)间的简单相关系数,pij是变数xi和其它变量xj(j?i)间在控制了其它变量下的偏相关系数。由式(4-5)可知,某变数xi的MSAi统计量的值在0和1之间。当变数xi与其它所有变量间的简单相关系数平方和远大于偏相关系数的平方和时,MSAi值接近1。MSAi的值越接近于1,意味着变数xi与其它变量间的相关性越强。而当它与其它所有变量间的简单相关系数平方和接近0时,MSAi的值则接近0。MSAi值越接近于0,意味变数xi与其它变量间的相关性越弱。藉由以上的观念,仔细观察反映象相关矩阵,如果反映象相关矩阵中除主对角元素外,其它大多数元素的绝对值均较小,对角在线元素的值较接近l,则说明了这些变量的相关性较强,适合进行因素分析。反之如果反映象相关矩阵中大部分元素的值都较大的话,应该考虑该观测数据可能不适合做因素分析。 ■ 相关系数矩阵
计算原始变量间的简单相关系数矩阵并进行统计检验。相关系数矩阵计算出来后,仔细观察相关系数矩阵,如果相关系数矩阵中的大部份相关系数值均小于0.3,即各个变数间大多为弱相关的划,那么原则上这些变量是不适合进行因素分析的。 ■ 巴特利特球形检验(Bartlett test of sphericity)
巴特利特球形检验以原始变量的相关系数矩阵为基础,判断相关系数矩阵是否为单位矩阵,即相关系数矩阵为对角矩阵(对角元素不为0,非对角元素均为0)且主对角上的元素均为1,因为如果相关系数矩阵为单位矩阵的话,代表各变量间没有相关,因此观测资料也就不适合做因素分析了。故巴特利特球形检验的虚无假设H0为相关系数矩阵是单位矩阵。巴特利特球形检验的检验统计量将根据相关系数矩阵的行列式计算而得到,且其机率分配近似服从卡方分配。如果该统计量的值倾向于较大的值,且所对应的机率p值小于预设的显着水平(一般设??0.05),则应拒绝虚无假设,亦即可认为相关系数矩阵并非单位矩阵,所以原始变量适合作因素分析;反之,如果该统计量的值倾向于较小的值且所对应的机率p值大于预设的显着水平,则不能拒绝虚无假设,因此可以认为相关系数矩阵与单位矩阵无显着差异,原始变量不适合作因素分析。 ■ KMO检验(Kaiser-Meyer-Olkin test)
KMO检验从比较原始变量之间的简单相关系数和偏相关系数的相对大小出发,因此须建立一个能比较变量间简单相关系数和偏相关系数的指标,此指标称为KMO检验统计量,其数学定义为:
???ij2KMO?j?i???ij2???pij2j?ij?i (4-6)
其中,?ij是变数xi和其它变量xj(j?i)间的简单相关系数,pij是变数xi和其它变量xj(j?i)间在控制了其它变量下的偏相关系数。KMO与MSA的主要差异在于KMO将相关系数矩阵中的所有元素都加入到了平方和的计算中。由式(4-6)可知,KMO统计量的值会介于0和1之间。当所有变量间的偏相关系数平方和远远小于简单相关系数平方和时,KMO值接近1。KMO值越接近于1,意味着变数间的相关性越强,原始变量越适合做因素分析;当所有变量间的简单相关系数平方和接近0时,KMO值接近0。KMO值越接近于0,意味着变数间的相关性越弱,原始变量越不适合做因素分析。Kaiser订出了常用的KMO统计量之衡量标准:0.9以上表示非常适合做因素分析;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。 4-4-2 因素萃取和因素负荷矩阵的求解
在探索性因素分析中,求解初始因素这一步骤的主要目的是确定能够解释原始变量之间相关关系的最小因素个数,也就是说根据样本数据求出因素负荷矩阵。根据所依据的准则不同,有很多种求解因素负荷矩阵的方法,主要可以分为两类:一类是基于主成份分析模型的主成份分析法(Principle components factoring),另一类是以共同因素模型为基础的共同因素分析法,包括主轴因素法(Principle axis factoring)、最大概似法(Maximum likelihood factoring)、最小平方法(Least squares factoring)、Alpha法(Alpha factoring)、映象分析法(Image analysis factoring)等等。主成份分析法实际上是一种独立于因素分析的一种资料化简技术。因素分析中会把主成份分析的结果作为一个初始因素解,这是因为在确定因素个数时,常会用到主成份分析所产生的一个统计量---特征值。其它的求因素解的方法,如主轴因素法也采用了和主成份分析类似的算法,所以,主成份分析在因素分析中占有重要的地位。在此,仅将对在因素分析中占有重要地位且使用最为广泛的主成份分析法作简单讨论。
■ 主成份分析法求解因素负荷矩阵
主成份分析法能够为因素分析提供初始解,因素分析是主成份分析结果的延承和推广。在主成份分析法中,可以藉由坐标轴变换的手段,将原有的p个相关变数xi标准化后进行线性组合,而转换成另一组不相关的变数yi,如下式: y1??11x1??12x2??13x3????1pxp y2??21x1??22x2??23x3????2pxp y3??31x1??32x2??33x3????3pxp
(4-7)
?
yp??p1x1??p2x2??p3x3????ppxp
22式(4-7)为主成份分析的数学模型。其中?i2。要求得式(4-7)1??i2????ip?1(i=1,2,3,?,p)
中的每个系数,必须遵守下列原则:
(1) yi与yj(i?j;i,j?1,2,3,?,p)相互独立。
(2) y1是变数x1,x2,?,xp的一切线性组合中变异数最大的;y2是y1不相关的变数x1,x2,?,xp 的一切线性组合中变异数最大的;yp是与y1,y2,?,yp?1都不相关的x1,x2,?,xp的一切线性