多元统计分析课程设计(2)

2020-05-23 14:54

多元统计分析课程设计

离较远的点归为不同的类。但相似系数和距离有各种各样的定义,而这些定义与变量的类型关系极大,因此先介绍变量的类型。

由于实际问题中,遇到的指标有的是定量的(如长度、重量等),有的是定性的(如性别、职业等),因此将变量(指标)的类型按一下三种尺度划分:

间隔尺度:变量是用连续的量来表示,如长度、重量、压力、速度等等。在间隔尺度中,如果存在绝对零点,又称比例尺度,本文并不严格区分比列尺度和间隔尺度。

有序尺度:变量度量时没有明确的数量表示,而是划分一些等级,等级之间的有次序关系,如某些产品分上、中、下三等,此三等有次序关系,但没有数量表示。

名义尺度:变量度量时既没有数量关系,也没有次序关系,如某物体有红、黄、白三种颜色,又如医学化验中阴性与阳性,市场供求中的“产”和“销”等。

不同类型的变量,在定义距离和相似系数是,其方法有很大差异,使用是必须注意。研究比较多的是间隔尺度,因此本文主要给出间隔尺度的距离和相似系数的定义。

设有n个样品,每个样品测得p项指标(变量)原始资料阵为

X1?x11x12?x1p???X2?x21x22?x2p?X?

????????xx?xXn?n2np??n1?其中xij(i?1,...,n;j?1,...,为第i个样品的第j个指标的观测数据。第i个样品p)Xi为矩阵X的第i行所描述,所以任何两个样品XK和XL之间的相似性,可以通过矩阵X中的第K行与第L行的相似程度来刻划;任何两个变量xK与xL之间的相似性,可以通过第K列与第L列的相似程度来刻划。

1 对样品分类(称为Q?型聚类分析)常用的距离定义

如果把n各样品(X中的n个行)看成p维空间中n个点,则两个样品间相似程度可用p维空间中的两点的距离来度量。令dij表示样品Xi与Xj的距离。常用距离有:

i)明氏(Minkowski)距离

dij(q)?(?xi??xj?)

??1p1qq当q?1时

dij(1)??xi??xj? 即绝对距离

??1p当q?2时

- 2 -

多元统计分析课程设计

122dij(2)?(?xi??xj?) 即欧式距离

??1p当q??时

dij(?)?maxxi??xj? 即切比雪夫距离

ii)马氏(Mahalanobis)距离 设?表示指标的协差阵即:

??(?ij)p?p

其中

1n ,p(x?i?xi)(x?j?xj) i,j?1,...?ij??n?1??11nxi??x?i

n??11nxj??x?j

n??1

如果??1存在,则两个样品之间的马氏距离为

dij(M)?(Xi?Xj)?(Xi?Xj)

这里Xi为样品Xi的p个指标组成的向量,即原始资料阵的第i行向量。样品X2'?1j类似。

样品X到总体G的马氏距离定义为

?1d(X,G)?(X??)?(X??) 2'其中?为总体的均值向量,?为协方差阵 iii)兰氏(Canberra)距离

1pxi??xj?n i,j?1,... ,dij(L)??p??1xi??xj?

2 对指标分类(称为R?型聚类分析)常用的距离

p个指标(变量)之间相似性的定义与样品相似相定义类似,但此时是在n维空间中来研究的,变量之间的相似性是通过原始资料矩阵X中的p列间相似关系研究的。

令dij表示变量Xi?(x1i,...,xni)与变量Xj?(x1j,...,xnj)之间距离。

i)明氏距离

''dij(q)?(?xi??xj?)

??1p1qqii)马氏距离

设?表示样品的协差阵即

- 3 -

多元统计分析课程设计

??(?ij)n?n

其中

1n ,n(x?i?xi)(x?j?xj) i,j?1,...?ij??n?1??11nxi??x?i

p??11nxj??x?j

p??12(M)?(xi?xj)??1(xi?xj) 如果??1存在,则马氏距离为dij'iii)兰氏距离

dij(L)????1pxi??xj? ?xi?xj?此处仅适用于一切xij?0的情况 1.3系统聚类分析基本方法 1.3.1系统聚类

系统聚类法的基本思想是:首先视n个观测量(或变量)各自成为一类,然后找质量最接近的两个类合并成为一个新类,计算在新的类别分划下各类之间的距离,然后将性质最接近的两类合并,知道所有模式聚成一类为止。系统聚类方法从聚类过程的特征来看属于聚合法,它即可以对样品聚类也可以对变量聚类。根据聚类过程中采取什么样的方法进行类与类的合并,系统聚类方法又可进一步细分为最短距离法、最长距离法、重心法、类平均法、中间距离法、可变类平均法、可变法、李差平方和法等。 1.3.2二阶段聚类

二阶段聚类模型是一种新型的分层聚类方法,目前一般应用在数据挖掘与多元统计的交叉领域—模式分类中,其算法适用任何尺度的变量。 1.3.3K中心聚类

K中心聚类为一种快速聚类方法,适合处理大样本数据。K中心聚类要求聚类变量为数值变量,研究者事先需要指定分类数K,各分类中心的初值可以由研究者指定,也可以由程序自动给出。K中心聚类采用迭代算法,不断调整各分类中心位置,直到收敛。

- 4 -

多元统计分析课程设计

1.3.4层次聚类

层次聚类(也称系统聚类)是实际工作中使用最多的一种方法。层次聚类法的层次含义是:开始时每个样品各看成一类,将距离最近的两类合并;重新计算新类与其他类的距离,再将距离最近的两类合并;再计算新类与其他类的距离??,这样一步步地进行下去,每一步减少一类,直至所有的样品都合并成一类为止。整个聚类过程可绘成聚类图。类与类之间的距离有各种不同的定义方法,定义不同即产生不同的算法,而不同的算法可能聚得不同的结果。选用何种结果合适,可以结合专业知识帮助判断。

2问题描述

下面的资料是2003年全国各地区粮食生产情况,给出了粮食产量(万吨),农作物总的播种面积(千公顷),有效浇灌面积(千公顷)以及化肥施用量(万吨)。试将我国各地粮食产量情况进行分类,以了解我国不同地区的粮食产量分布状况。

地区 粮食产量 农作物总的播种面积 (千公顷) 308.83 501.46 8638.5 3707.95 5752.75 3719.13333 4716.75 9802.665 419.19 7681.49 2834.39 9124.69 2518.92 4997.35 10885.28 13684.36 7138.26 7731.24 有效灌溉面积 (千公顷) 178.9 354.09 4403.99 1095.25 2568.54 1512.83 1545.52 2111.53 257.31 3840.98 1403.8 3285.38 939.95 1873.16 4760.79 4792.22 2043.69 2675.34 化肥施用量 (万吨) 14.32 17.8 283.31 89.91 93.19 112.62 122.26 125.7 15.87 334.67 90.38 281.28 120.29 110.98 432.65 467.89 270.32 188.33 (万吨) 北京 58.03 天津 119.29 河北 2387.80 山西 958.87 内蒙古 1360.73 辽宁 1498.30 吉林 2259.60 黑龙江 2512.30 上海 98.75 江苏 2471.85 浙江 793.38 安徽 2214.80 福建 713.16 江西 1450.30 山东 3435.54 河南 3569.47 湖北 1921.02 湖南 2442.73 - 5 -

多元统计分析课程设计

广东 广西 海南 重庆 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆

1430.40 1465.10 204.60 1087.10 3054.10 1104.30 1471.01 96.60 968.40 789.34 86.80 270.17 775.48 4883.39 6279.07 906.743 3365.81 9384.46 4634.226 5756 233.66 4055.775 3620.92 466.8 1129.48 3535.02 1315.93 1516.67 177.27 649.69 2503.15 682.71 1457 156.32 1271.86 994.44 181.73 413.19 3051 199.61 183.69 33.92 71.6 208.39 74.9203 129.22 3.19 142.73 69.57 6.85 25.36 90.74 3.问题分析

进行聚类分析一般包括以下几个基本步骤:

(1)选择描述事物对象的变量(指标)。要求选取的变量既要够全面反映对象性质的各个方面,又要使不同变量反映的对象性质有差异。

(2)形成数据文件,建立样品资料矩阵。

(3)确定数据是否需要标准化。不同变量的单位经常不一样,有时不同变量的数值差别达到几个数量级别,这时如果不作数据标准化处理,数值较小的变量在描述对象的距离或相似性时其作用会严重消弱,从而影响分类的正确性。

(4)确定表示对象距离或相似程度的统计量。 (5)选择适当的事物对象聚类方法,进行聚类。

4.计算求解

4.1 操作步骤:

将上述数据转化为Excel形式,输入到spss的数据编辑窗口,具体输入如下:

- 6 -


多元统计分析课程设计(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:年产35万吨聚丙烯聚合工段工艺设计

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: