聚类分析(3)

2019-02-20 20:57

NCL为1(最后一次合并)合并的是CL5和CL2,即类水平为5时得到的类和类水平为2时得到的类,CL5又是由CL9和CL19合并得到的,CL2是由CL4和CL3合并得到的,等等。FREQ表示这次合并得到的类有多少个观测。SPRSQ是半偏 的

,RSQ是

,ERSQ是在均匀零假设下

的近似期望值,CCC为CCC统计量,Pseudo F 为伪F统计量,

统计量,Norm RMS Dist是正规化的的两类元

Pseudo t**2为伪

素间距离的均方根,Tie指示距离最小的候选类对是否有多对。 因为我们假装不知道数据的实际分类情况,所以我们必须找到一个合理的分类个数。为此,考察CCC、伪F、伪

和半偏

统计量。我们打

开INSIGHT界面,调入上面产生的OTREE数据集,绘制各统计量的图形。因为类水平太大时的信息没有多少用处,所以我们对OTREE数据集取其类水平不超过30的观测,即: data ot;

set otree;

where _ncl_ <= 30; run;

各统计量的图形见图2-图5。CCC统计量建议取5类或3类(局部最大值),伪F建议3类(局部最大值),伪

建议3类(局部最大值处

建议3类。由

是不应合并的,即局部最大值处的类数加1),半偏

这些指标看比较一致的是3类,其次是5类。为了看为什么不能明显地分为三类,我们对四个变量求主分量,画出前两个主分量的散点图(见图6)。可以看出Setosa(红色)与其它两类分得很开,而Versicolor(绿色)与Virginica(蓝色)则不易分开。

因为我们知道要分成3类,所以我们用如下的TREE过程绘制树图并产生分类结果数据集:

proc tree data=otree graphics horizontal nclusters=3 out=oclust;

copy species; run;

树图见图7,因为观测过多所以图显得杂乱。从图中也可以看出,分为两类可以分得很开,而分成三类时距离则不够远。如果上面的TREE过程去掉输出数据集要求,可以用包含最后的聚类过程的OT数据集来作为输入。这个TREE过程用NCLUSTERS=3指定了分成3个类,结果数据集OCLUST中有一个CLUSTER变量代表生成的分类。我们把这个数据集调入INSIGHT中用不同颜色代表SPECIES(实际种类),用不同符号代表不同聚类过程分类,作前两个主分量散点图(见图8)。可以看出,有Virsicolor和Virginica两类互相都有分错为对方的。 为了统计分类结果,可以用FREQ过程作表: proc freq data=oclust;

tables species*cluster / nopct norow nocol; run; 得

SPECIES(Species) CLUSTER

Frequency | 1| 2| 3| Total

-----------+--------+--------+--------+

Setosa | 0 | 0 | 50 | 50 -----------+--------+--------+--------+

Versicolor | 49 | 1 | 0 | 50

-----------+--------+--------+--------+

Virginica | 15 | 35 | 0 | 50

-----------+--------+--------+--------+

Total 64 36 50 150

可见Virginica被分错的较多。

读者可以自己试用其它的类间距离来聚类,可以得到不同的结果。 聚类分析与判别分析 2009-09-24 11:13

一、聚类分析的基本思想

1.什么是聚类分析

俗语说,物以类聚、人以群分。 当有一个分类指标时,分类比较容易。

但是当有多个指标,要进行分类就不是很容易了。

比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;

也可以考虑收入、教育水准、医疗条件、基础设施等指标; 对于多指标分类,由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。

所以需要进行多元分类,即聚类分析。

最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。

对于一个数据,人们既可以对变量(指标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。

2.R型聚类和Q型聚类

对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。

聚类分析就是要找出具有相近程度的点或类聚为一类; 如何衡量这个“相近程度”?就是要根据“距离”来确定。

这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距

离、马氏距离?,相似系数也可看作为距离。

二、如何度量距离的远近:统计距离和相似系数 1.统计距离

距离有点间距离好和类间距离 2.常用距离

统计距离有多种,常用的是明氏距离。 3.相似系数

当对 个指标变量进行聚类时,用相似系数来衡量变量间的关联程度,一般地称 为变量 和 间的相似系数。常用的相似系数有夹角余弦、相关系数等。

夹角余弦: 相关系数:

对于分类变量的研究对象的相似性测度,一般称为关联测度。 第二节 如何进行聚类分析 一、系统聚类

1.系统聚类的基本步骤 2.最短距离法 3.最长距离法 4.重心法和类平均法 5.离差平方和法 二、SPSS中的聚类分析

1、事先要确定分多少类:K均值聚类法; 2、事先不用确定分多少类:分层聚类; 分层聚类由两种方法:分解法和凝聚法。


聚类分析(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:2011届中考英语专题复习四:数词、冠词考点讲解

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: