聚类分析实验报告

2020-04-16 12:12

《应用多元统计分析》

课 程 实 验 报 告

实验名称:用聚类分析的方法研究山东省17个市的产业类型

的差异化

学生班级: 统计0901

学生姓名: 贾绪顺 杜春霖 陈维民 张鹏

指导老师:____________张艳丽_____________________

完成日期: 2011.12.12

一, 实验内容

根据聚类分析的原理,使用系统聚类分析的COMplete linkage (最长距离法)和WARD(离差平方和法),运用SPSS软件对2009年山东省17个城市生产总值的数据进行Q型聚类,将17个城市分为5类,发现不同城市产业类型的差异化,并解释造成这种差异的原因

二, 实验目的

希望通过实验研究山东省17个市的生产总值的差异化,并分析造成这种差异化的原因,可以更深刻的掌握聚类分析的原理;进一步熟悉聚类分析问题的提出、解决问题的思路、方法和技能;达到能综合运用所学基本理论和专业知识;锻炼收集、整理、运用资料的能力的目的;希望能会调用SPSS软件聚类分析有关过程命令,并且可以对数据处理结果进行正确判断分析,作出综合评价。

三, 实验方法背景与原理 3.1方法背景

聚类分析又称群分析,是多元统计分析中研究样本或指标的一种主要的分类方法,在古老的分类学中,人们主要靠经验和专业知识,很少利用数学方法。随着生产技术和科学的发展,分类越来越细,以致有时仅凭经验和专业知识还不能进行确切分类,于是数学这个有用的工具逐渐被引进到分类学中,形成了数值分类学。近些年来,数理统计的多元分析方法有了迅速的发展,多元分析的技术自然被引用到分类学中,于是从数值分类学中逐渐的分离出聚类分析这个新的分支。结合了更为强大的数学工具的聚类分析方法已经越来越多应用到经济分析和社会工作分析中。在经济领域中,主要是根据影响国家、地区及至单个企业的经济效益、发展水平的各项指标进行聚类分析,然后很据分析结果进行综合评价,以便得出科学的结论。

聚类分析源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。聚类分析的主要应用,在商业方面,最常见的就是客户群的细分问题,可以从客户人口特征、消费行为和喜好方面的数据,对客户进行特征分析,充分利用数据进行客户的客观分组,使诸多特征有相似性的客户能被分在同一组内,而不相似的客户能被区分到另一些组中。在生物方面,聚类分析可以用来对动植物进行分类,对基因进行分类等,从而获取对动植物种群固有结构的认识,对物种进行很好的分类。在电子商务方面,聚类分析在电子商务中网站建设数据挖掘中也是很重要的一个方面,通过对客户的浏览行为、浏览网站、客户的年龄等,对客户进行分析,找出不同客户的共同特征,通过共同特征对客户进行分类,可以帮助电子商户更好的了解他们的客户,并向客户提供更合适的服务。在保险行业上,根据产、寿险进行分类,不同类别的公司进行分类,对保险投资比例进行分类管理,从而提高保险投资的效率。

3.2实验的方法与原理

聚类分析是研究“物以类聚”的一种科学有效的方法。做聚类分析时,出于不同的目的和要求,可以选择不同的统计量和聚类方法。 聚类分析方法中最常用的一种是系统聚类法,其基本思想是:先将待聚类的n个样品(或者变量)各自看成一类,共有n类;然后按照选定的方法计算每两类之间的聚类统计量,即某种距离(或者相似系数),将关系最为密切的两类合为一类,其余不变,即得到n-1类;再按照前面的计算方法计算新类与其他类之间的距离(或相似系数),再将关系最为密切的

两类并为一类,其余不变,即得到n-2类;如此下去,每次重复都减少一类,直到最后所有的样品(或者变量)都归为一类为止。系统聚类分析有两种类型:Q型样本聚类和R型变量聚类。这里我们运用的是Q型聚类。

Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来。

本实验中,分别采用最长距离法和离差平方和法对样本进行分类。 方法一:用最长距离对样本进行分类

个体与小类间的最长距离是该个体与小类每个个体距离的最大值 在聚类分析前,首先把数据进行标准化变换xij??xij?xjRj?i?1,2,?,n,j?1,2,?,n?,

变换后的数据,每个变量样本均值为0,标准差为1,而且标准化变换后的数据xij与变量的量纲无关。采用系统聚类的方法,用最长距离法计算欧氏距离

???dij??xi?1mit?xjt2?i,j?1,2,?,n?,其中xit表示第i个样品的第t个指标的观测值,xjt表示第j个样品的第t个指标的观测值,dij为第i个样品与第j个样品之间的欧式距离。若dij越小,那么第i与j两个样品之间的性质就越接近。最长距离法求类与类之间的距离,设类Gp和Gq合并Gr后,按照最长距离计算新类Gr与Gk其他类的类间距离,其递推公式为

Drk?maxdijGr??Gp,Gq?=maxi?Gr,j?Gk???i?Gp,j?Gkmaxdij,maxdij=max?Dpk,Dqk??k?p,q?

i?Gq,j?Gk?

方法二:用离差平方和法(WARD)对样品进行分类

离差平方和法是Ward(1936)提出的,也称为Ward法。它基于方差分析思想,如果类分得正确,则同类样品之间的离差平方和应当较小,不同类样品之间的离差平方和应当较大。

假定已将n个样品分为k类,记为G1,G2,?,Gk,nt表示Gt类的样品个数,X(t)(t)表

示Gt的重心,X,则Gt中样品的离差平方和为 (i)表示Gt中第i个样品(i=1,?,nt)

(t)(t)?(t)Wt=??X??X((t)?, (i)?Xi)?Xi?1nt其中X(i),X(t)(t)为m维向量,Wt为一数值(t=1,2,?,k)。

k个类的总离差平方和为

(t)(t)?(t)(t)W=?Wt=???X?XX?X???. (i)(i)t=1t=1i?1kknt

当k固定时,要选择使W达到极小的分类。

Ward法的基本思想是,先将n个样品各自成一类,此时W=0;然后每次将其中某两类合并为一类,因每缩小一类离差平方和就要增加,每次选择使W增加最小的两类进行合并,直至所有样品合并为一类为止。

Ward法把某两类合并后增加的离差平方和看成为类间的平方距离,即令

2Dpq=Wr??Wp?Wq?

表示类Gp和Gq的平方距离,其中Gr?Gp,Gq,Wr,Wp,Wq分别为Gr,Gp,Gq类中样品的离差平方和。利用Wr的定义,可得

(r)(r)?(r)Wr=??X??X((r)?(t)?Xt)?Xt?1nr??

nq=??Xi?1np(p)(i)?X(r)(r)(r)?(r)???X((p)????X((q)??X((q)?, i)?Xi)?Xi)?Xi?1其中X?r??1?p??q???nX?nX.经整理可得 pq??nr2Dpq?npnqnr?X2pq?p??X?q????X?p??X?q??.

当样品间距离采用欧氏距离时,上式可表为

D?2npnqnr2dpq,

其中dpq表示Gp,Gq的重心X?p?与X?q?的平方距离:

2dpq?d2?X?p?,X?q??.

这表明此时Word法定义的类间距离与重心法只相差一个常数倍。

当Gp和Gq合并为Gr后,Gr与其他类Gk的距离有如下递推公式

2Drk?nk?npnr?nk2Dpk?nk?nqnr?nk2Dqk?nk2Dpq

nr?nk上述两种方法都是将性质接近的样品划为一类。聚类分析依据的基本原则是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质相差比较大的分在不同类。也就是说,同类事物之间性质差异小,类与类之间的性质相差比较大。

系统聚类分析是聚类分析中应用的最广泛的一种方法。首先将n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止。分类结果可以画成一张直观的聚类谱系图。应用系统聚

类法进行聚类分析的步骤如下: ①确定待分类的样品的指标 ②收集数据

③对数据进行变换处理

④使各个样品自成一类,即n个样品一共有n类

⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类

⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止

⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果。

四、实验数据与实验结果

我们根据2010年山东统计年鉴的数据,运用SPSS软件进行分析,得到如下实验数据与结果:

1,原始数据

表1-1 山东省17城市生产总值原始数据

地区 X1 X2 20704772 70619047 58081899 22437375 41199590 66453587 60488560 22645751 25301440 35641945 18934672 5868280 39162992 33622261 31048684 33182983 21236454 X3 3918747 31956998 9491580 1753203 4554293 38086756 11709800 5242998 1632878 14747879 5202300 363118 7750708 2620289 1005847 2627798 1950326 X4 20639608 55733587 30244829 6651504 15809465 49475292 26141577 16033364 13970449 20280903 4998376 3045801 15125262 10973162 11917024 8352382 6628429 X5 X6 X7 214.9 274.8 105.7 66.0 67.4 175.8 183.2 130.3 77.3 81.8 50.9 21.3 161.9 82.8 87.9 72.2 108.8 X8 18024610 19611331 10056751 4228513 3887417 14126854 12148004 10042495 6978426 7092776 3195391 1888211 11587531 6586211 5585951 4507461 6655095 济南市 20686756 青岛市 27503964 淄博市 14061888 枣庄市 5064995 东营市 15345343 烟台市 16417465 潍坊市 10497502 济宁市 13006720 泰安市 9325693 威海市 1821752 日照市 1731442 莱芜市 5668429 临沂市 3547197 德州市 4265744 聊城市 7202729 滨州市 3256739 菏泽市 3674339 3784306 8943039 4831806 8137064 1884145 5053392 2207428 1592207 1696382 2383391 5975883 5008978 6548044 4473999 6219252 2895386 3382994 4859536 3008526 1668404 1762907 1478668 725138 451164 4778789 2876138 4432973 1295397 4032858 1027917 3004112 1480444 3945037 1340737 (来源:2010年山东统计年鉴)

X1-规模以上国有控股工业总产值(单位:万元) X2-规模以上非公有工业总产值(单位:万元) X3-规模以上外商和港澳台投资工业总产值(单位:万元) X4-规模以上高新技术产业总产值(单位:万元) X5-农林牧渔业总产值(单位:万元) X6-建筑业总产值 (单位:万元) X7-邮电业务总量(单位:亿元) X8-社会消费品零售总额 (单位:万元)

2,SPSS软件处理结果


聚类分析实验报告.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:上传终稿3(全面预算管理)

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: