几种多元统计分析方法及其在生活中的应用[1]

2018-12-06 20:18

第2章聚类分析及其应用实例

2. 1聚类分析简介

聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统

计分析方法，它们讨论的对象是大量的样品，要求能合理地按各自的特性來进行

合理的分类，没有任何模式可供参考或依循，即是在没有先验知识的情况下进行

的[']。

聚类分析方法有很多，按不同的分类方式，有不同的分类。按聚类方法的不

同可分为以下几种：

(1)系统聚类法：对所在的指标进行分类，每一次将最相似的两个数据合并

成一类，合并之后和其他数据的距离会重新计算，这个步骤会不断重复下去直至

所有指标合并成一类，并类的过程可用一张谱系聚类图描述.

(2)调优法（动态聚类法）：所谓调优法，从表面意思就可以看出是在对n

个对象初步分类后，根据分类后的信息损失尽可能小的原则对分类进行择优调整，

直到分类合理为止.

(3)有序样品聚类法：在很多实际问题中，所谓的样品都是相互独立的个体，

因此可以平等的划分。但是有序样品聚类法的存在就是因为在另外一些实际问题

中，样品之间是存在着某种联系而在分类中是不允许打乱顺序的。有序样品聚类

法开始时将所有样品归为一类，然后根据某种分类准则将其分为二类等等，一直

往下分类下去直至满足分类要求。它的思想正好与系统聚类法的相反。

(4)模糊聚类法：利用模糊聚集理论来处理分类问题，它对经济领域中具有

模糊特征的两态数据或多态数据具有明显的分类效果.

(5)图论聚类法：在处理分类问题中独创性的引入了图论中最小支撑树的概

念。

(6)聚类预报法：顾名思义，就是用聚类分析的方法来在各个领域中进行预

报。在多元统计分析中，判别分析、回归分析等方法都可以用来做预报，但是在

一些异常数据面前，这些方法做的预报都不是很准确，方法也不好准确的实施，

而聚类预报则很好的解决了这一点。可以预见，聚类预报法经过更深入的研究后，

一定会得到更加广泛的应用。

按聚类对象的不同，聚类分析可分为2型[对样品（CASES)聚类]与型[对

变量（VARIABLE)聚类]，两种聚类在方法和步骤上都基本相同. 2. 2聚类分析方法介绍

数学方法在实际应用中是否受欢迎，最主要的一点就是它能不能适用于大型 6

第2章聚类分析及.11；应用实例

计算的问题。图论聚类法、基于等价关系的聚类方法和谱系聚类法在大型问题中

难以快速有效处理数据而应用甚少。基于目标函数的聚类方法因其设计简单，在

实际生活中被广泛运用，其主要思想是将问题转换为带约束条件的非线性优化，

这样就可以运用完备的线性最优化知识解决问题，而且这种方法也易于在计算机

上实现。而伴随着计算机技术的突飞猛进，基于目标函数的聚类方法必定会成为

研究的热点。

2. 2. 1谱系聚类方法

在待分析样本数较小时，通常采用谱系聚类方法（系统聚类法）。谱系聚类法

是按距离准则来对样本进行分类的，例如我们要将样本集X中的〇个样本划分为C

类。那么算法的实现过程如下：首先令这^个样本各自为一个类，此时，总的类数

为〇;其次，计算这/7个类别之间的相互距离，合并距离最小的两个样本，这样总

得分类数就只有个；然后计算新形成的个类别之间的距离，同样合并最

小的两个类，使类别减少为n-2个，依此原则，继续合并；最后，当总的类别只

剩下C类时，停止计算，分类结束，此时的C类就是聚类的结果。需要注意的是，

在此过程中，计算类与类之间的距离的方法有很多种，具体选择什么方法，需要

视具体情况而定。计算类间距离的方法，后续也会有比较详细的介绍。

根据上述聚类原则，我们很快可以知道，对于样本集里的任意两个样本X?和

Xj’它们总是可以聚类到一个类别中去。 “

上述所介绍的，只是谱系聚类算法中的一种，这种算法一般称为聚集法，它

比较适合于类别比较多的时候，当类别较少时，用此种方法就显得计算量非常的

大，使得分类效率不高；另一种谱系聚类算法叫做分裂法，它与聚集法初始时将

所有样本卑独分成一类刚好相反，它是将所有样本当成一类，然后在将某些样本

分离出去，形成其他的类别，这样就节省了相当一部分的计算量。在实际运用中，

具体选择哪种方法来聚类就得以具体情况为准。

上述算法中的分类仅仅依靠样本间的距离或者类间距离，因而，距离的计算

决定了分类结果。距离的计算种类有：闽可夫斯基距离（包括街区距离、欧氏距

离和切比雪夫距离等），也可以选择马氏距离、角度相似性函数或者Taniraoto测度。

其中马氏距离定义

DI = - m)' C~' - m) (2—1)

这里X为模式向量，w为均值向量，C为模式总体的协方差矩阵.马氏距离的优点 k

是排除了模式样本之间的相关性影响.比如，我们取一个模式特征向量，可能有九 7 第2章聚类分析及用实例

如果B类是由E和F两类合并而成的，则有

2.最长距离法[9】

与上述相似，两个聚类A和B间的最长距离定义为

=max{i/J a e e 5} (2—5)

同样地，如果B类是由E和F两类合并而成的，贝max

3.中间距离法[9]

如果B类是由E和F两类合并而成的，则A类和B类之间的距离为 (2-6)

它介于最长距离和最短距离之间.

4.重心法

上述定义的类间距离没有考虑每一类中包含的样本数目，如果E类中有个

样本，F类中有个样本，则E和F两类合并后共有+?,.个样本.用”）

fP\工、代替中_距离、法中的系数，即得：重心、法的类与类之间的距离递推公 /l?A- +?/■■；式为 D,. ?

(2-7)

V n, + n, n, +n, (?/:.+?,)—

5.类平均距离法[9]

如果采用类间所有距离的平均距离，则有

Da,B = Yj ^Ih (2-8) V oA,heB

不难得到类平均距离的递推公式为

D,、b = (2-9)

V ?// + n〉 n,,. + n,,-

由于定义类间距离的方法不同，使分类结果不太一致.实际问题中常用几种不

同地方法进行计算，比较其分类结果，选择一个比较切合实际的分类.对于上述五

种定义类间距离的方法，可采用统一的递推公式：

~ ^E^AJi + ^F^AJ'七 PD丨“1: + 7\\D^J； - （2-10)

由此，我们可以得到五种类间距离递推公式中的权系数，如表1所示，其中 9 第2章聚类分析及ji；应用实例

n, ^n, +n,,即B类样本数目是E和F类样本的合并。

表2-1统一类间距离递推公式中的权系数

Table2-1 The Weight Coefficient in The Recurrence Formula of Distance Between the

Unified Class

共5页:

几种多元统计分析方法及其在生活中的应用[1].doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档