聚类分析实验报告
一、实验数据
2013年,在国内外形势错综复杂的情况下,我国经济实现了平稳较快发展。全年国内生产总值568845亿元,比上年增长7.7%。其中第三产业增加值262204亿元,增长8.3%,其在国内生产总值中的占比达到了46.1%,首次超过第二产业。经济的快速发展也带来了就业的持续增加,年末全国就业人员76977万人,其中城镇就业人员38240万人,全年城镇新增就业1310万人。随着我国城镇化进程的不断加快,加之农业用地量的不断衰减,工业不断的转型升级,使得劳动力就业压力的缓解需要更多的依靠服务业的发展。
(一)指标选择
根据指标选择的可行性、针对性、科学性等原则,分别从服务业的发展规模、发展结构、发展效益以及发展潜力等方面选择14个指标来衡量服务业的发展水平,指标体系如表1所示:
表1 服务业发展水平指标体系 一级指标 服务业发展规模指标 服务业发展结构指标 二级指标 服务业增加值 服务业就业人数 服务业产值比重 服务业就业比重 人均服务产品占有量 服务业发展效益指标 服务密度 服务综合生产率 服务产品外贸进出口总额 服务业贡献率 人均GDP 服务业增长速度 工业化水平 城市化水平 服务业全社会固定资产投资额
单位 亿元 万人 % % 元/人 元/万平方公里 亿元/万人 万美元 % 元 % % % 亿元 1
计算方法 ∑服务业各企事业单位增加值 服务业吸纳劳动力数量 服务业增加值/GDP 服务业就业人数/总就业人数 服务业增加值/地区总人口数 服务业增加值/地区面积 服务业增加值/服务业就业人数 服务产品的进口额+出口额 服务增加值/总人口 国内生产总值/总人口 (报告期不变价服务业增加值/基期不变价服务业增加值-1)*100% 工业增加值/国内生产总值 城镇人口/总人口 ∑服务业各行业固定资产投资额 代码 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11 X12 X13 X14 服务业发展潜力指标 (二)指标数据
本次实验采用的数据是我国31个省(市、自治区)2012年的数据,原数据均来自《2013中国统计年鉴》以及2013年各省(市、自治区)统计年鉴,不能直接获得的指标数据是通过对相关原始数据的换算求得。原始数据如表2所示:
表2 2012年各地区服务业发展水平统计数据表 地区 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 X1 13669.93 6058.46 9384.78 4682.95 5630.50 9460.12 4150.36 5540.31 12199.15 23517.98 15681.13 5628.48 7737.13 4486.06 19995.81 9157.57 8208.58 8643.60 26519.69 4615.30 1339.53 4494.41 8242.31 3282.75 4235.72 377.80 5009.65 2269.61 624.29 982.52 2703.18 X2 837.40 401.00 1258.00 653.10 485.40 1078.00 515.80 662.59 629.84 1737.23 1288.31 1568.30 929.95 922.71 2141.10 1740.18 1266.50 1401.54 2037.88 809.00 193.91 617.82 1573.83 398.68 856.68 81.36 457.60 356.64 121.30 120.50 360.37 X3 0.76 0.47 0.35 0.39 0.35 0.38 0.35 0.40 0.60 0.44 0.45 0.33 0.39 0.35 0.40 0.31 0.37 0.39 0.46 0.35 0.47 0.39 0.35 0.48 0.41 0.54 0.35 0.40 0.33 0.42 0.36 X4 0.76 0.50 0.31 0.36 0.37 0.44 0.38 0.33 0.56 0.37 0.35 0.37 0.36 0.36 0.33 0.28 0.34 0.35 0.34 0.28 0.40 0.38 0.33 0.22 0.30 0.40 0.22 0.24 0.39 0.35 0.36 X5 6.61 4.29 1.29 1.30 2.26 2.16 1.51 1.45 5.12 2.97 2.86 0.94 2.06 1.00 2.06 0.97 1.42 1.30 2.50 0.99 1.51 1.53 1.02 0.94 0.91 1.23 1.33 0.88 1.09 1.52 1.21 X6 8329.97 5071.17 497.08 298.85 47.60 639.20 221.47 117.13 19240.04 2292.20 1540.39 402.03 623.96 268.79 1272.81 548.36 441.56 408.10 1474.95 194.99 378.40 545.42 169.94 186.34 108.61 3.08 243.42 50.02 8.67 148.87 16.28 X7 16.32 15.11 7.46 7.17 11.60 8.78 8.05 8.36 19.37 13.54 12.17 3.59 8.32 4.86 9.34 5.26 6.48 6.17 13.01 5.70 6.91 7.27 5.24 8.23 4.94 4.64 10.95 6.36 5.15 8.15 7.50
2
表2(续) 地区 北 京 天 津 河 北 山 西 内蒙古 辽 宁 吉 林 黑龙江 上 海 江 苏 浙 江 安 徽 福 建 江 西 山 东 河 南 湖 北 湖 南 广 东 广 西 海 南 重 庆 四 川 贵 州 云 南 西 藏 陕 西 甘 肃 青 海 宁 夏 新 疆 X8 0.80 0.53 0.44 0.82 0.40 0.50 0.34 0.89 1.07 0.54 0.64 0.34 0.40 0.45 0.56 0.44 0.37 0.44 0.63 0.47 0.57 0.62 0.43 0.44 0.38 0.58 0.34 0.49 0.38 0.50 0.51 X9 87475.00 93173.00 36584.00 33628.00 63886.00 56649.00 43415.00 35711.00 85373.00 68347.00 63374.00 28792.00 52763.00 28800.00 51768.00 31499.00 38572.00 33480.00 54095.00 27952.00 32377.00 38914.00 29608.00 19710.00 22195.00 22936.00 38564.00 21978.00 33181.00 36394.00 33796.00 X10 5.06 4.44 2.95 4.50 6.44 2.80 3.65 2.97 3.03 4.15 3.21 2.86 2.78 3.30 3.65 3.06 3.06 3.41 4.08 3.29 3.93 3.80 3.00 5.86 3.74 2.94 4.30 3.93 2.91 7.13 4.05 X11 0.18 0.47 0.35 0.39 0.35 0.38 0.35 0.40 0.60 0.44 0.45 0.33 0.39 0.35 0.40 0.31 0.37 0.39 0.46 0.35 0.47 0.39 0.35 0.48 0.41 0.54 0.35 0.40 0.33 0.42 0.36 X12 0.86 0.82 0.47 0.51 0.58 0.66 0.54 0.57 0.89 0.63 0.63 0.47 0.60 0.48 0.52 0.42 0.54 0.47 0.67 0.44 0.52 0.57 0.44 0.36 0.39 0.23 0.50 0.39 0.47 0.51 0.44 X13 5341.70 4884.60 9469.90 4335.20 5215.20 11812.60 3970.50 4619.00 3861.10 14804.90 11326.70 8090.90 7597.20 4401.40 15875.70 9582.30 8069.90 7931.40 12348.00 5386.70 1710.20 5503.00 10489.00 4074.60 5082.60 429.00 7215.70 2236.10 921.70 987.90 2685.90 X14 40810731.90 11563427.20 5056305.50 1504310.90 1125898.20 10408999.70 2456300.90 3759029.10 43658695.30 54796148.90 31240135.80 3928454.30 15593795.70 3341382.90 24554432.40 5173880.60 3196375.10 2194873.20 98402046.00 2948446.00 1432209.60 5320358.20 5914359.80 663155.80 2101373.20 342414.30 1479903.20 890075.20 115747.00 221670.60 2517005.90
二、实验步骤
本次实验是在SPSS中分别利用系统聚类法和K均值法进行聚类分析,具体步骤如下:
(一)系统聚类法
⒈在SPSS窗口中选择Analyze—Classify—Hierachical Cluster,调出系统聚类分析主界面,将变量X1-X14移入Variables框中。在Cluster栏中选择
3
Cases单选按钮,即对样品进行聚类(若选择Variables,则对变量进行聚类)。在Display栏中选择Statistics和Plots复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。
⒉点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计量。这里选择系统默认值,点击Continue按钮,返回主界面。
⒊点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选中Dendrogram复选框和Icicle栏中的None单选按钮,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。
⒋点击Method按钮,设置系统聚类的方法选项。Cluster Method下拉列表用于指定聚类的方法,这里选用Ward’s method,Measure中的Interval中选择Squared Euclidean distance,在Transform Values中的Standardize中选择Z scores,表示对原始数据进行标准化,其他选择默认选项。单击Continue按钮,返回主界面。
⒌点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新变量。这里选用Range of solutions,并在后面的两个矩形框中分别输入3和4,即生产三个新的分类变量,分别表示将样品分为3类、4类和5类时的聚类结果。点击Continue,返回主界面。
(二)K均值法
1.在SPSS窗口中选择Analyze—Descriptive Statistics—Descriptives…,调出Descriptives主界面,将变量X1-X14移入Variables框中,选中Save standardized values as variables复选框,然后点击OK,即对原始数据进行标准化,以消除量纲的影响。
2.在SPSS窗口中选择Analyze—Classify—K-Means Cluster,调出K均值聚类分析主界面,将变量X1-X14移入Variables框中。将标志变量Region移入Label Case by框中,在Method框中选择Iterate classify,即使用K-means算法不断计算新的类中心,并替换旧的类中心。在Number of Cluster后面的矩形框中输入想要把样品聚成的类数,这里输入4,即将31个省、市、自治区分为4类,其他按钮均为系统默认。
⒊点击Iterate按钮,对迭代参数进行设置,这里采用系统默认的标准。单
4
击Continue,返回主界面。
⒋点击Save按钮,设置保存在数据文件中的表明聚类结果的新变量,选中Cluster membership(建立一个代表聚类结果的变量,默认变量名为qcl_1)和Distance from cluster center(建立一个新变量,代表各观测变量与其所属类中心的欧几里得距离),单击Continue按钮返回主界面。
⒌点击Options 按钮,指定要计算的统计量,选中Initial cluster centers和Cluster information for each case复选框,这样在输出窗口中将给出聚类的初始类中心和每个观测量的分类信息,包括分配到哪一类和该观测量距所属类中心的距离,单击Continue按钮返回主界面。
6.点击OK,进行K均值聚类分析程序。 三、实验结果 (一)系统聚类法结果
在结果输出窗口中可以看到分类结果表(表3)和聚类树形图(图1),具体见表1和图2所示:
从表3和图1可以清楚的看到,可将样品分成如下四类: 第一类:北京、天津、上海
第二类:河北、辽宁、安徽、福建、河南、湖北、湖南、四川
第三类:山西、内蒙古、吉林、黑龙江、江西、广西、海南、重庆、贵州、云南、西藏、陕西、甘肃、青海、宁夏、新疆
第四类:江苏、浙江、山东、广东
5