分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。 分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。 分层聚类的中要进行以下的选择: 数据的标准化
测度方法的选择:距离方法的选择或相似性、关联程度的选择。
聚类方法的选择:即以什么方法聚类,spss中提供了7中方法可进行选择。 输出图形的选择:树形图或冰柱图。 3、聚类分析要注意的问题。 聚类方法的优缺点:
类平均法比较好,因为与类平均法相比,最短和重心法是“空间浓缩”,即并类的距离范围小,区别类的灵敏度差;
与类平均法相比,其他方法是“空间扩张”,即并类距离范围大,区别类的灵敏度强。
最短距离比最长距离法好
聚类结果中,如果孤类点太多,则说明该中聚类方法不好。 如果从减少孤类来看,一般情况下用Word’s方法最好。 快速聚类法与层次聚类法应用区别
层次聚类法的聚类过程是单方向的,一旦某个样品(case)进入某一类,就不可能从该类出来,再归入其他的类。
而快速聚类法受奇异值、相似测度和不合使得聚类变量的影响较小,对于不合适的初始分类可以进行反复调整.
在聚类分析发展的早期,层次聚类法应用普遍,其中尤以组间类平均法和离差平方和法应用最广。
后来快速聚类方法逐步被人们接受,应用日益增多。现在是两者相结合,取长补短。
首先使用层次聚类法确定分类数,检查是否有奇异值,去除奇异值后,对剩下的案例重新进行分类,把用层次聚类法得到的各个类的重心,作为迭代法的初
始分类中心,对样本进行重新调整。
第三节 判别分析 一、判别分析的基本思路 1.为什么判别?
有一些昆虫的性别很难看出,只有通过解剖才能够判别;
但是雄性和雌性昆虫在若干体表度量上有些综合的差异。于是统计学家就根据已知雌雄的昆虫体表度量(这些用作度量的变量亦称为预测变量)得到一个标准,并且利用这个标准来判别其他未知性别的昆虫。
这样的判别虽然不能保证百分之百准确,但至少大部分判别都是对的,而且用不着杀死昆虫来进行判别了。
2.判别分析(discriminant analysis)的含义 这就是本章要讲的是判别分析。
判别分析和前面的聚类分析有什么不同呢?
主要不同点就是,在聚类分析中一般人们事先并不知道或一定要明确应该分成几类,完全根据数据来确定。
而在判别分析中,至少有一个已经明确知道类别的“训练样本”,利用这个数据,就可以建立判别准则,并通过预测变量来为未知类别的观测值进行判别了。
3.判别分析例子
例10.1 数据disc.sav:企图用一套打分体系来描绘企业的状况。该体系对每个企业的一些指标(变量)进行评分。
这些指标包括:
企业规模(is)、服务(se)、 雇员工资比例(sa)、利润增长(prr)、 市场份额(ms)、市场份额增长(msr)、 流动资金比例(cp)、资金周转速度(cs)等等。
另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。 我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”。
4.判别分析的基本思路
设有G1、G2、?GK个总体,从不同的总体中抽出不同的样本,根据样本→建立判别法则→判别新的样品属于哪一个总体。
当然,根据不同的方法,建立的判别法则也是不同的。 常用的判别方法有:距离判别、Fisher判别、Bayes判别。 二、几种判别分析方法; 1.距离判别法(不用投影)
最简单的办法就是离哪个中心距离最近,就属于哪一类。通常使用的距离是所谓的马氏(Mahalanobis)距离。
用来比较到各个中心距离的数学函数称为判别函数(discriminant function).这种根据远近判别的方法,原理简单,直观易懂。
假设有两个总体G1和G2, 如果能够定义点x到它们的距离D(x,G1)和D(x,G2), 则
如果D(x,G1) < D(x,G2),则 x∈G1 如果D(x,G2) < D(x,G1),则 x∈G2 如果D(x,G1) = D(x,G2),则待判
2.Fisher判别法(先进行投影的距离判别) 所谓Fisher判别法,就是一种先投影的方法。 考虑只有两个(预测)变量的判别分析问题。
假定这里只有两类。数据中的每个观测值是二维空间的一个点。见图。 这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难
将这两种点分开。
于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。
有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。
3.逐步判别法
有时,一些变量对于判别并没有什么作用,为了得到对判别最合适的变量,可以使用逐步判别。
逐步判别法的基本思路:
采用“有进有出”的方法。即在判别过程中,没有一个变量进入判别分析中,先对各变量进行计算、检验,从中挑选最主要的变量进入判别中。
然后再考虑较早引入判别式的某些变量,如果由于新变量的引入而原变量变为不重要了,则剔除判别式中,直到所有的重要变量都引入判别式中,所有的非重要变量都剔除判别式中为止。
如何判别那个变量重要呢?
已知变量之间在各组中的差异越大越好,即为重要变量。 变量在各组间的差异可用多元的方差分析,即利用: 来分析变量的重要性。 三、判别分析要注意的问题。
样本中必须有所有要判别的类型,分类必须清楚,不能有混杂。
要选择好可能用于判别的预测变量。这是最重要的一步。当然,在应用中,选择的余地不见得有多大。
要注意数据是否有不寻常的点或者模式存在。还要看预测变量中是否有些不适宜的;这可以用单变量方差分析(ANOVA)和相关分析来验证。
判别分析是为了正确地分类,但同时也要注意使用尽可能少的预测变量来达到这个目的。使用较少的变量意味着节省资源和易于对结果进行解释。
我国各地区教育经费不同类型的判别分析
数据文件:各地区教育经费.sav。
变量为:x1-国家财政性教育经费、x2-社会团体和公民个人办学经费、x3-社会捐资和集资办学经费、x4-学费和杂费和x5-其他教育经费。
原数据分为三类,其中上海、新疆是待判样本。 思考题:
1.举例说明何为聚类分析?
2.能否用你身边的事例说明聚类分析与判别分析的异同?
3.做判别分析时,如果不精心,会有什么后果?什么是不好的后果? 聚类分析(Clustering Analysis) 2009-11-16 21:54 概念
聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。 聚类与分类的不同在于,聚类所要求划分的类是未知的。
聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。
聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。
从统计学的观点看,聚类分析是通过数据建模简化数据的一种方法。传统的统计聚类分析方法包括系统聚类法、分解法、加入法、动态聚类法、有序样品聚类、有重叠聚类和模糊聚类等。采用k-均值、k-中心点等算法的聚类分析工具已被加入到许多著名的统计分析软件包中,如SPSS、SAS等。
从机器学习的角度讲,簇相当于隐藏模式。聚类是搜索簇的无监督学习过程。与分类不同,无监督学习不依赖预先定义的类或带类标记的训练实例,需要由聚类学习算法自动确定标记,而分类学习的实例或数据对象有类别标记。聚类是观察式学习,而不是示例式的学习。
从实际应用的角度看,聚类分析是数据挖掘的主要任务之一。而且聚类能够作为一个独立的工具获得数据的分布状况,观察每一簇数据的特征,集中对特定的聚簇集合作进一步地分析。聚类分析还可以作为其他算法(如分类和定性归纳算法)的预处理步骤。
主要应用 在商业上
聚类分析被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。
聚类分析是细分市场的有效工具,同时也可用于研究消费者行为,寻找新的潜在市场、选择实验的市场,并作为多元分析的预处理。 在生物上
聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识 在地理上
聚类能够帮助在地球中被观察的数据库商趋于的相似性 在保险行业上
聚类分析通过一个高的平均消费来鉴定汽车保险单持有者的分组,同时根据住宅类型,价值,地理位置来鉴定一个城市的