使用SPSS进行探索式因素分析的教程(3)

2019-04-09 15:28

组合中变异数最大的。

根据上述原则所确定出来的变量y1,y2,?,yp，依次称为原始变数x1,x2,?,xp的第1、第2、第3、?、第p个主成份。其中y1在总变异数中所占的比例最大，它整合原始变量x1,x2,?,xp的能力最强，其余主成份y2,y3,?,yp在总变异数中所占比例依次递减，即其余主成份y2,y3,?,yp整合原始变量x1,x2,?,xp的能力依次减弱。在主成份分析的实务应用中，一般研究者只会选取前面几个变异数较大的主成份。这样的好处是既能减少变量的数目，又能够用较少的主成份反映原始变量的绝大部分信息。

基于上述说明可见，主成份分析法的核心是透过原始变量的线性组合以及各个主成份的求解来实现变量降维的作用。现将主成份分析之数学模型的系数求解步骤归纳如下：（1）将原始变量进行标准化处理。（2）计算变量的简单相关系数矩阵R。

（3）求矩阵R的特征值?1??2??3????p?0及对应的单位特征向量?1,?2,?,?p。透过上述步骤，计算yi??i'xi便得到各个主成份。其中的p个特征值和对应的特征向量便是因素分析的初始解。

现在重新回到因素分析模型中来。因素分析利用上述p个特征值和对应的特征向量，并在此基础之上求出因素负荷矩阵A：

?a11?aA??21???ap1a12a22?ap2?a1p???11?1??a2p???12?1????????app????1p?1?21?2?22?2??2p?2??p1?p????p2?p? ?????pp?p?? （4-8）

由于因素分析的目的是减少变量个数，因此在因素分析的数学模型中，因素数目k小于原始变数个数p。所以在计算因素负荷矩阵时，只选取前k个特征值和其对应的特征向量，而得到式（4-9）所示的，只包含k个因素的因素负荷矩阵：

?a11?aA??21??ap1?

a12a22?ap2?a1k???11?1??a2k???12?1???????apk?????1p?1?21?2?22?2??2p?2??k1?k??k2?k????kp?k??? ??? （4-9）

根据主成份分析法所求出的因素负荷矩阵具有下面的性质：

1、主成份f1,f2,?,fk之间是不相关的，且fk的变异数等于?k。

2、 ??k?p，即所有特征值的和等于原始变量的数量。这是因为假设原始变量已经过标准化处

k理，变异数会等于1，所以p个变数的变异数之和等于p，而?kp则表示了第k个主成份所解释的变异数的比例。

3、变数xi与主成份fk之间的相关系数，就是所谓的因素负荷，其值为： aik??ki?k

4、每个主成份所解释的变异数等于所有变量在该主成份上之负荷的平方和：

2，此即表4-1因素负荷矩阵中，每一直行各元素的平方和。即?k??aiki

■ 决定因素个数

有p个变量就应该有p个主成份，但是因素分析的目的是为了简化数据，所以我们不会自找麻烦用p个主成份，而是只萃取出前几个主成份作为初始因素，那么到底需要几个因素才能代表原来数据中的主要信息部分呢？虽然目前还没有精确的定量方法可以用来辅助决定因素个数，但在实务应用上还是有一些准则可以帮我们决定因素的个数，常用的有以下三个：

◆ 特征值准则

所谓特征值准则就是取特征值大于等于1的主成份来作为初始因素，放弃特征值小于1的主成份。因为每个变量的变异数为1，该准则认为每个保留下来的因素至少应该能解释一个变量的变异数，否则达不到精简的目的。特征值准则是实务应用中最普遍的确定因素个数的方法。

◆ 碎石检验准则

在碎石检验准中，将按照因素被萃取出的顺序，画出因素的特征值随因素个数变化的散布图，根据图的形状来判断因素的个数（图4-2）。该图的形状像一个山峰，从第一个因素开始，曲线迅速下降，然后下降趋势变得较为平缓，最后变成近似一条直线，一般而言，曲线开始变平缓的前一个点可被认为是萃取的最大因素个数。因为后面的这些散布点就好像是山脚下的「碎石」，舍去这些「碎石」，并不损失很多信息，该准则因此而得名。

◆ 累积变异数贡献率

第一个因素的累积变异数贡献率定义为：

c1?V1??p1pi?1 （4-10）

??p由式（4-10）可知，第一个因素的变异数贡献率是它的变异数贡献除以总变异数。由于原有的p个变量已经进行了标准化处理（平均数为0，变异数为1），因此总变异数为p。第二个因素的累积变异数贡献率定义为：

c2?V1?V2?1??2?p p （4-11）

??pi?1

由此，前k个因素的累积变异数贡献率定义为：

Vck??k?i?1pk??i??ii?1i?1pk （4-12）

根据式（4-12）可计算出因素的累积变异数贡献率。通常选取累积变异数贡献率大于0.85时的特征值个数为因素个数k。

表4-2 各因素的特征值及百分比

因素 1 2 3 4 5

特征值 3.20 1.27 0.25 0.18 0.10 占全体的百分比(%) 64.00% 25.40% 5.00% 3.60% 2.00% 累积百分比(%) 64.00% 89.40% 94.40% 98.00% 100.00%

图4-2 因素分析的陡坡图

表4-2为某数据组经因素分析后的结果，该表列出了所有候选因素的特征值及累积的变异解释百分比，根据特征值准则，对于表4-2的资料，应该选取两个因素，从陡坡图来看也应该选取两个因素，这两个因素累计解释了原始资料中总变异数的89.4%。因素累积的变异解释百分比，也是确定因素个数时可以参考的指标，一般选取的因素数量应要求使累积的变异解释百分比能达到70～80以上。

当然在有些特定的情况下，研究者已经事先确定了因素的个数，也可以在SPSS中直接设定要萃取的因素个数。这种方法在检验有关因素个数的理论和假设或者重复做某些特定工作时非常方便。在实务的研究中，研究者很少仅仅依赖某一准则来决定因素个数，而是应该结合几个准则进行综合判断。保留的因素是否有意义，是否能被解释，也是在确定因素时应该考虑的重点。保

留的因素太多，在解释因素时可能会比较困难。

4-4-3 因素的命名

初始因素解虽然达到了数据化简的目的。在求解初始因素这一步骤中，我们确定了共同因素个数，确定了每个变量的共同因素的变异数。但是根据初始因素解，往往很难解释因素的意义，因为大多数因素都和很多变量相关。因素的命名解释是因素分析的另一个重要问题。观察因素负荷矩阵，如果因素负荷aij的绝对值在第i列的很多行上都有较大的取值（通常大于0.5），则表示原始变量xi与多个因素同时有较大的相关关系。也就是说，原始变量xi的信息需要由多个因素来共同解释；如果因素负荷aij的绝对值在第j行的很多列上都有较大的取值，则表示因素fj能够同时解释许多变量的信息，且对每个变量xi只能解释其中的较少部分信息。因素fj不能典型代表任何一个原始变量xi。在这种情况下，因素fj的实际含义是模糊不清的。而在实际分析工作中，研究者总是希望对因素的实际含义有比较清楚的认识。为解决这个问题，可透过因素旋转的方式使一个变量只在尽可能少的因素上有比较高的负荷。最理想状态是，使某个变量xi在某个因素fj上的负荷趋近于1，而在其它因素上的负荷趋近于0。这样，一个因素fj就能够成为某个变量xi的典型代表，于是因素的实际含义也就能够清楚表达了。

所谓因素旋转就是将因素负荷矩阵A右乘一个正交矩阵?后得到一个新的矩阵B。因素旋转的目的是想透过改变坐标轴的位置，重新分配各个因素所解释的变异数的比例，使因素结构更为简单，更易于解释。因素旋转不会改变模型对数据的拟合程度，也不会改变每个变量的共通性hi2，但却会改变因素的变异数贡献Vk。所谓「简单的因素结构」是指每个变量在尽可能少的因

素上有比较高的负荷。以因素为轴，因素负荷为坐标而做图，则每个变量是该空间中的一个点，该图称为因素负荷图。如图4-3和图4-4所示。

圖4-3 因素負荷圖

圖4-4 座標軸旋轉後的因素負荷

图4-3是以两个因素f1、f2为坐标轴的因素负荷图。可以看到，图中的10个变量（10个

点）在因素f1、f2上均有一定的负荷，因此，因素f1、f2的含义不清。在图4-4中，坐标轴旋转后，在新的坐标轴中，10个变量中有6个变量在因素f1'上有较高的负荷，而这6个变数在因子f2'上的负荷几乎为0。此外，其余的4个变量在因素f2'上有较高的负荷，在因素f1'的负荷几

乎为0。此时，因素f1'、f2'的含义就较为清楚，它们分别是对原有6个变量和其它4个变量的整合与缩减。因此，坐标旋转后应尽可能使原始变量点出现在某个坐标轴的附近，并同时远离其它坐标轴。在某个坐标轴附近的变量只在该因素上有较高负荷，而在其它因素上只有很低的负荷。

因素旋转的方式有两种：一种为正交旋转，另一种为斜交旋转。正交旋转是指坐标轴在旋转过程中始终保持互相垂直，于是新产生的因素仍可保持不相关性。而斜交旋转中坐标轴中的夹角可以是任意度数，因此新产生的因素之间无法保证不具相关性。在使因素能被容易命名与解释方面，斜交旋转通常会优于正交旋转，但却也牺牲了一些代价，即无法保持因素的不相关性。因此实务应用上一般会选用正交旋转方式。正交旋转方式通常有四次方最大法（Quartimax）、变异数最大法（Varimax）和等量最大法（Equalmax）等。这些旋转方法的目标是一致的，只是策略不同而已，其中最常用的为变异数最大法。 4-4-4 计算因素得分

在前面几小节我们主要解决了用因素来线性地表示一组原始变量的相关问题。如果我们要使用这些因素做其它的研究，比如把得到的因素作为自变量来做回归分析、对样本进行分类或评价，这些都需要对因素进行测度，算出因素对应每个样本上的值，这些值称为因素得分(Factor scores)。因素得分是因素分析的最终结果，在因素分析的实务应用中，当因素确定以后，便可计算各因素在每个样本上的具体数值（因素得分），这些因素得分所形成的变量称为因素变量。于是，在以后的分析中就可以因素变量代替原始变量进行数据分析与建模，进而实现降维和简化问题的目标。

计算因素得分的过程其实就是用原始变量来描述因素的过程，第j个因素在第i个样本上的值可表示为：

?j1x1i???j2x2i???j3x3i?????jpxpiFji??(j?1,2,3,?,k)

（4-13）

?j1,??j2,?,??jp，式（4-13）中，x1i,x2i,?,xpi分别是第1,2,?,p个原始变数在第i个样本上的值，?分别是第j个因素和第1,2,?,p个原始变量间的因素值系数。可见，它是原始变量线性组合的结?j1,??j2,?,??jp）果（与因素分析的数学模型正好相反），因素得分可看作是各变量值的加权（?总和，权重的大小表示了该变量对因素的重要程度。因此：

?j1x1???j2x2???j3x3?????jpxpFj??(j?1,2,3,?,k)

（4-14）

式（4-14）称为因素得分函数。由于因素个数k小于原始变数个数p，因此式（4-14）中方程式的个数会少于变数的个数。所以，对因素值系数通常采用最小平方法意义下的回归法进行估计。可将式（4-14）当作是因素变量Fj对p个原始变量的线性回归方程（其中常数项为0）。很容易可以证明出，式（4-14）中之回归系数的最小平方估计应该满足：

WjR?SJ

（4-15）

共7页:

使用SPSS进行探索式因素分析的教程(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档