聚类分析(3)

2019-02-20 20:57

NCL为1（最后一次合并）合并的是CL5和CL2，即类水平为5时得到的类和类水平为2时得到的类，CL5又是由CL9和CL19合并得到的，CL2是由CL4和CL3合并得到的，等等。FREQ表示这次合并得到的类有多少个观测。SPRSQ是半偏的

，RSQ是

，ERSQ是在均匀零假设下

的近似期望值，CCC为CCC统计量，Pseudo F 为伪F统计量，

统计量，Norm RMS Dist是正规化的的两类元

Pseudo t**2为伪

素间距离的均方根，Tie指示距离最小的候选类对是否有多对。因为我们假装不知道数据的实际分类情况，所以我们必须找到一个合理的分类个数。为此，考察CCC、伪F、伪

和半偏

统计量。我们打

开INSIGHT界面，调入上面产生的OTREE数据集，绘制各统计量的图形。因为类水平太大时的信息没有多少用处，所以我们对OTREE数据集取其类水平不超过30的观测，即： data ot;

set otree;

where _ncl_ <= 30; run;

各统计量的图形见图2－图5。CCC统计量建议取5类或3类（局部最大值），伪F建议3类（局部最大值），伪

建议3类（局部最大值处

建议3类。由

是不应合并的，即局部最大值处的类数加1），半偏

这些指标看比较一致的是3类，其次是5类。为了看为什么不能明显地分为三类，我们对四个变量求主分量，画出前两个主分量的散点图（见图6）。可以看出Setosa（红色）与其它两类分得很开，而Versicolor（绿色）与Virginica（蓝色）则不易分开。

因为我们知道要分成3类，所以我们用如下的TREE过程绘制树图并产生分类结果数据集：

proc tree data=otree graphics horizontal nclusters=3 out=oclust;

copy species; run;

树图见图7，因为观测过多所以图显得杂乱。从图中也可以看出，分为两类可以分得很开，而分成三类时距离则不够远。如果上面的TREE过程去掉输出数据集要求，可以用包含最后的聚类过程的OT数据集来作为输入。这个TREE过程用NCLUSTERS=3指定了分成3个类，结果数据集OCLUST中有一个CLUSTER变量代表生成的分类。我们把这个数据集调入INSIGHT中用不同颜色代表SPECIES（实际种类），用不同符号代表不同聚类过程分类，作前两个主分量散点图（见图8）。可以看出，有Virsicolor和Virginica两类互相都有分错为对方的。为了统计分类结果，可以用FREQ过程作表： proc freq data=oclust;

tables species*cluster / nopct norow nocol; run; 得

SPECIES(Species) CLUSTER

Frequency | 1| 2| 3| Total

-----------+--------+--------+--------+

Setosa | 0 | 0 | 50 | 50 -----------+--------+--------+--------+

Versicolor | 49 | 1 | 0 | 50

-----------+--------+--------+--------+

Virginica | 15 | 35 | 0 | 50

-----------+--------+--------+--------+

Total 64 36 50 150

可见Virginica被分错的较多。

读者可以自己试用其它的类间距离来聚类，可以得到不同的结果。聚类分析与判别分析 2009-09-24 11:13

一、聚类分析的基本思想

1．什么是聚类分析

俗语说，物以类聚、人以群分。当有一个分类指标时，分类比较容易。

但是当有多个指标，要进行分类就不是很容易了。

比如，要想把中国的县分成若干类，可以按照自然条件来分：考虑降水、土地、日照、湿度等各方面；

也可以考虑收入、教育水准、医疗条件、基础设施等指标；对于多指标分类，由于不同的指标项对重要程度或依赖关系是相互不同的，所以也不能用平均的方法，因为这样会忽视相对重要程度的问题。

所以需要进行多元分类，即聚类分析。

最早的聚类分析是由考古学家在对考古分类中研究中发展起来的，同时又应用于昆虫的分类中，此后又广泛地应用在天气、生物等方面。

对于一个数据，人们既可以对变量（指标）进行分类(相当于对数据中的列分类)，也可以对观测值（事件，样品）来分类（相当于对数据中的行分类）。

2．R型聚类和Q型聚类

对变量的聚类称为R型聚类，而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的，没有什么不同。

聚类分析就是要找出具有相近程度的点或类聚为一类；如何衡量这个“相近程度”？就是要根据“距离”来确定。

这里的距离含义很广，凡是满足4个条件（后面讲）的都是距离，如欧氏距

离、马氏距离?，相似系数也可看作为距离。

二、如何度量距离的远近：统计距离和相似系数 1．统计距离

距离有点间距离好和类间距离 2．常用距离

统计距离有多种，常用的是明氏距离。 3．相似系数

当对个指标变量进行聚类时，用相似系数来衡量变量间的关联程度，一般地称为变量和间的相似系数。常用的相似系数有夹角余弦、相关系数等。

夹角余弦：相关系数：

对于分类变量的研究对象的相似性测度，一般称为关联测度。第二节如何进行聚类分析一、系统聚类

1．系统聚类的基本步骤 2．最短距离法 3．最长距离法 4．重心法和类平均法 5．离差平方和法二、SPSS中的聚类分析

1、事先要确定分多少类：K均值聚类法； 2、事先不用确定分多少类：分层聚类；分层聚类由两种方法：分解法和凝聚法。

共5页:

聚类分析(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档