实 验 报 告
实验项目名称 所属课程名称 实 验 类 型 实 验 日 期 班 级 学 号 姓 名 成 绩
聚类分析与判别分析 统计分析及SAS实现 验证性实验 2016-12-19 数学与应用数学
实验概述: 【实验目的及要求】 掌握SAS中根据样本或变量按照其性质上的亲疏、相似程度进行聚类分析的方法以及判别样品所属类型的判别分析的方法。掌握SAS系统中编程实现聚类分析与判别分析的方法。 【实验原理】 SAS软件的操作方法及原理 【实验环境】(使用的软件) SAS 9.3 实验内容: 【实验方案设计】 一.理解聚类分析、判别分析的基本概念; 二.掌握系统聚类法的基本思想和步骤; 三.掌握判别分析的距离判别法、Fisher判别法和Bayes判别法; 四.利用编程proc过程步实现系统聚类法与判别分析。 【实验过程】(实验步骤、记录、数据、分析) 【练习8-1】为了更深入了解我国人口文化程度状况,现利用1990年全国人口普查数据对全国30个省、直辖市、自治区进行聚类分析。分析选用了三个指标变量:大学以上文化程度的人口占全部人口的比例(DXBZ),初中文化程度的人口占全部人口的比例(CZBZ),文盲半文盲人口占全部人口的比例(DXBZ),原始数据如表所示。 表 1990年全国人口普查文化程度人口比例 Region Num DXBZ CZBZ WMBZ Beijing 1 9.3 30.55 8.7 Tianjing 2 4.67 29.38 8.92 Hebei 3 0.96 24.69 15.21 Shanxi 4 1.38 29.24 11.3 Neimeng 5 1.48 25.47 15.39 Liaoning 6 2.6 32.32 8.81 Jilin 7 2.15 26.31 10.49 Heilongj 8 2.14 28.46 10.87 Shanghai 9 6.53 31.59 11.04 Jiangsu 10 1.47 26.43 17.23 Zhejiang 11 1.17 23.74 17.46 Anhui 12 0.88 19.97 24.43 Fujian 13 1.23 16.87 15.63 Jiangxi 14 0.99 18.84 16.22 Shandong 15 0.98 25.18 16.87 Henan 16 0.85 26.55 16.15 Hubei 17 1.57 23.16 15.79 Hunan 18 1.14 22.57 12.1 Guangdong 19 1.34 23.04 10.45 Guangxi 20 0.79 19.14 10.61 Hainan 21 1.24 22.53 13.97 Sichuan 22 0.96 21.65 16.24 Guizhou 23 0.78 14.65 24.27 Yunnan 24 0.81 13.85 25.44 Xizang 25 0.57 3.85 44.43 Shanxi 26 1.67 24.36 17.62 Gansu 27 1.1 16.85 27.93 Qinghai 28 1.49 17.76 27.7 Ningxia 29 1.61 20.27 22.06 Xinjjiang 30 1.85 20.66 12.75 【解答】 ①利用proc cluster过程步实现聚类分析: libname lmf \; proc cluster data=Lmf.p81 standard method=ward outtree=Lmf.tree1 pseudo; var DXBZ CZBZ WMBZ; copy Region; run; 结果: 表8.1 Ward's Minimum Variance Cluster Analysis Eigenvalues of the Correlation Matrix Eigenvalue Difference Proportion Cumulative 1 2.21945956 1.58864479 2 0.63081477 0.48108909 3 0.14972568 0.7398 0.2103 0.0499 0.7398 0.9501 1.0000 The data have been standardized to mean 0 and variance 1 Root-Mean-Square Total-Sample Standard Deviation 1 Root-Mean-Square Distance Between Observations 2.44949 由表8.1 Ward离差平方和法得出相关系数的特征值,其中各列数据分别为特征值(Eigenvalue)、与相邻特征值之差(Difference)、占总方差的百分比(Proportion)、占总方差累计百分比(Cumulative)。本题数据经过标准化,样本均值(mean)为0,方差(variance)为1。其中样本均方根标准差(Root-Mean-Square Total-Sample Standard Deviation)为1,样品间均方根距离(Root-Mean-Square Distance Between Observations)为2.44949。 表8.2 Cluster History Number Clusters Freq Semipartial R-Square Pseudo F Pseudo Tie of Joined R-Square Statistic t-Squared Clusters 29 OB23 OB24 2 0.0002 1.00 150 . 28 27 26 25 24 23 22 21 20 19 18 17 16 15 14 13 12 11 10 9 8 7 6 5 4 OB3 OB15 2 OB18 OB21 2 OB27 OB28 2 OB5 OB10 2 OB11 OB26 2 CL28 OB16 3 CL24 OB17 3 OB13 OB14 2 OB7 OB8 2 0.0003 0.0004 0.0004 0.0005 0.0005 0.0006 0.0006 0.0007 0.0007 0.0010 0.0013 0.0015 0.0018 0.0020 0.0021 0.0038 0.0046 0.0055 0.0063 0.0070 0.0106 0.0108 0.0292 0.0308 0.0608 .999 .999 .999 .998 .998 .997 .997 .996 .995 .994 .993 .991 .990 .988 .985 .982 .977 .972 .965 .958 .948 .937 .908 .877 .816 135 126 123 117 115 111 109 106 106 102 96.9 92.6 88.2 84.9 83.4 75.8 69.6 64.8 61.6 60.2 56.8 56.8 47.1 44.5 38.4 . . . . . 1.9 1.3 . . 2.7 2.8 . 3.2 3.0 2.8 3.4 5.8 17.6 4.5 . 5.6 6.9 14.2 4.4 16.3 CL27 OB19 3 CL23 CL25 5 OB12 OB29 2 CL22 OB22 4 CL19 OB30 4 OB4 CL20 3 CL15 OB20 5 CL18 CL16 9 CL29 CL26 4 CL14 OB6 OB2 OB9 4 2 CL17 CL11 6 CL21 CL13 7 CL12 CL7 16 OB1 CL9 3 CL6 CL10 20