对应分析

2018-11-30 17:59

对应分析

（Correspondence Analysis）

在进行数据分析时，经常要研究两个定性变量（品质变量）之间的相关关系。我们曾经介绍过使用列联表和卡方检验来检验两个品质变量之间相关性的方法，但是该方法存在一定的局限性。卡方检验只能对两个变量之间是否存在相关性进行检验，而无法衡量两个品质型变量各水平之间的内在联系。例如，汽车按产品类型可以分豪华型、商务型、节能型、耐用型，按销售区域可分为华北区、华南区、华中区、华东区、西南区、西北区、东北区。利用卡方检验，只能检验销售地区与对型的偏好之间是否相关，但无法知道不同地区的消费者到底比较偏好哪种车型。

对应分析方法（Correspondence Analysis）又称相应分析、关联分析，是一种多元相依变量统计分析技术，是对两个定性变量（因素）的多种水平之间的对应性进行研究，通过分析由定性变量构成的交互汇总数据来解释变量之间的内在联系。同时，使用这种分析技术还可以揭示同一变量的各个类别之间的差异以及不同变量各个类别之间的对应关系。特别是当分类变量的层级数比较大时，对应分析可以将列联表中众多的行和列的关系在低维的空间中表示出来。而且，变量划分的类别越多，这种方法的优势就越明显。

对应分析以两变量的交叉列联表为研究对象，利用“降维”的方法，通过图形的方式，直观揭示变量不同类别之间的联系，特别适合于多分类定性变量的研究。

对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。

它最大特点是能把众多的样品和众多的变量同时作到同一张图上，将样品的大类及其属性在图上直观而又明了地表示出来，具有直观性。

另外，它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程，可以从因子载荷图上对样品进行直观的分类，而且能够指示分类的主要参数（主因子）以及分类的依据，是一种直观、简单、方便的多元统计方法。

该统计研究技术在市场细分、产品定位、品牌形象以及满意度研究等领域得到了广泛的运用。

对应分析的关键问题是：第一，如何将多个类别点表示在低维空间中，以易于直观观察；第二，如何确定各类别点的坐标，以易于鉴别类别间联系的强弱。

对应分析的基本步骤

第一步，编制交叉列联表并计算概率矩阵P

编制两定性变量的交叉列联表，得到一个r?c的矩阵X，即：

?x11?x?21X??x31????xr1x12x22x32xr2x13x23x33xr3x1c?x2c??x3c? ??xrc??其中，r为行变量的分类数，c为列变量的分类数，且要求xij?0。将矩阵X规格化为r?c的概率矩阵P，即：

?p11?p?21P??p31????pr1p12p22p32pr2p13p23p33pr3p1c?p2c??p3c? ??prc??其中，pij?xij??xi?1j?1rc，为各单元频数的总百分比。于是，矩阵P表示了一组关于比例的相

ij对数据。

第二步，根据P矩阵确定数据点坐标

将P矩阵的r行看成r个样本，并将这r个样本看成c维空间中的r个数据点，且各数据点的坐标定义为：

其中，zij?zi1,zi2,zi3,,zic (i?1,2,3,,r;j?1,2,3,,r)

pij?p?pkjk?1k?1rc(i?1,2,ik,c)。此时，各个数据点的坐标是一

个相对数据，它在各单元总百分比的基础上，将在行和列上的分布比例考虑了进来。于是，如果某两个数据点相距较近，则表明行变量的相应两个类别在列变量所有类别上的频数分布差异均不明显；反之，则差异明显。

同理，将P矩阵的c列看成c个样本，并将这c个样本看成r维空间中的c个数据点，且各数据点的坐标定义为：

其中，zij?z1i,z2i,z3i,,zci (i?1,2,3,,r;j?1,2,3,,c)

pij?p?pikk?1k?1cr(i?1,2,kj,c)。同理，各个数据点的坐标也是

一个相对数据。于是，如果某两个数据点相距较近，则表明列变量的相应两个类别在行变量所有类别上的频数分布差异均不明显；反之，则差异明显。

第三步，行变量和列变量的分类降维处理

通过第二步能够将两变量的各个类别看作是多维空间上的点，并通过点与点间距离的测度分析类别间的联系。在变量的类别较多时，数据点所在空间维数必然较高。由于高维空间比较抽象，且高维空间中的数据点很难直观地表示出来，因此最直接的解决方法便是降维。对应分析采用类似因子分析的方式分别对行变量类别和列变量类别实施降维。具体做法是：

? 对列变量实施分类的降维

（1）将P矩阵的c列看作c个变量，计算c个变量的协方差矩阵A。可以证明，第i个变量与第j个变量的协方差矩阵为：??(aij)，其中：aij?为A?ZZ。

（2）从协方差矩阵A出发，计算协方差矩阵A的特征根?1??2?'?zk?1rkikjz，并记

??k，

0?k?min{r,c}?1以及对应的特征向量?1,?2,,?k。

（3）根据累计方差贡献率确定最终提取特征根的个数m（通常m取2），并计算出

相应的因子载荷矩阵F，即：

?u11?1??u?F??211??u??c11u12?2u22?2uc2?2u1m?m??u2m?m?? ?vcm?m?? 其中，因子载荷是列变量的某分类在某个因子上的载荷，反映了它们之间的相

关关系。

? 对行变量实施分类的降维

（1）将P矩阵的r行看作r个变量，计算r个变量的协方差矩阵B。可以证明，第i个变量与第j个变量的协方差矩阵为：??(bij)，其中：bij??zk?1cikzjk，并记

为B?ZZ。

（2）从协方差矩阵B出发，计算协方差矩阵B的特征根和特征向量。可以证明，协

方差矩阵A和协方差矩阵B有相同的非零特征根。如果?1,?2,',?k为矩阵A

的相应特征根?k的特征向量，那么vk?Z?k就是矩阵B的相应特征根?k的特

征向量。

（3）根据累计方差贡献率确定最终提取特征根的个数m（通常m取2），并计算出

相应的因子载荷矩阵G，即：

?v11?1??v?G??211??v??r11v12?2v22?2vr2?2v1m?m??v2m?m?? ?vrm?m?? 其中，因子载荷是列变量的某分类在某个因子上的载荷，反映了它们之间的相关

关系。

第四步，绘制行列变量分类的对应分布图

由上步计算可知，因子载荷矩阵F和G中的元素，其取值范围是相同的，且元素数量大小的含义也是类似的，因此可以将它们分别看成c个二维点和r个二维点绘制在一个共同的坐标平面中，形成对应分布图，各点的坐标即为相应的因子载荷。

通过以上基本步骤，实现了对行列变量多类别的降维，并以因子载荷为坐标，将行列变量的多个分类点直观地表示在对应分布图中，实现了定性变量各类别间差异的量化。通过观察对应分布图中各数据点的远近就能判断各类别之间联系的强弱。

总结

方法原理

? 将数据整理为交叉表，进行变量变换。

? 分别对行变量和列变量进行因子分析，得到各自的因子分解方式和各类别的评分。 ? 将行、列变量的因子分析结果结合起来观察，研究两变量各级别的关系。要点

? 是多维图示分析技术的一种

? 与因子分析有关（分类资料的因子分析）

? 通过图形直观展示两个/多个分类变量各类间的关系 ? 研究较多分类变量间关系时较佳

? 各个变量的类别较多时较佳 ? 结果直观、简单

SPSS中的对应操作

? 菜单Analyze——Data Reduction——Correspondence Analysis

? Define Range

共4页:

对应分析.doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档