一、聚类分析
例1、为深入了解我国人口的文化程度状况,现利用1990年全国人口普查数据对全国30个省市自治区进行聚类分析。分析选用了三个指标:(1)大学以上文化程度的人口占全部人口的比例(DXBZ);(2)初中文化程度的人口占全部人口的比例(CZBZ);(3)文盲半文盲人口占全部人口的比例(WMBZ),分别用来反映较高、中等、较低文化程度人口的状况,原始数据如下表:(%) 地区 北京 天津 河北 山西 内蒙 辽宁 吉林 黑龙江 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 海南 四川 贵州 云南 西藏 陕西 甘肃 青海 宁夏 新疆 DXBZ 9.30 4.67 0.96 1.38 1.48 2.60 2.15 2.14 6.53 1.47 1.17 0.88 1.23 0.99 0.98 0.85 1.57 1.14 1.34 0.79 1.24 0.96 0.78 0.81 0.57 1.67 1.10 1.49 1.61 1.85 CZBZ 30.55 29.38 24.69 29.24 25.47 32.32 26.31 28.46 31.59 26.43 23.74 19.97 16.87 18.84 25.18 26.55 23.16 22.57 23.04 19.14 22.53 21.65 14.65 13.85 3.85 24.36 16.85 17.76 20.27 20.66 WMBZ 8.70 8.92 15.21 11.30 15.39 8.81 17.23 10.87 11.04 17.23 17.46 24.43 15.63 16.22 16.87 16.15 15.79 12.10 10.45 10.61 13.97 16.24 24.27 25.44 44.43 17.62 27.93 27.70 22.06 12.75 X(1)=1 x1=2, x2=3 x3=8 x4=9 x5=11
例2、根据信息基础设施的发展状况,对世界20个国家和地区进行分类。
这里选取了发达国家、新兴工业化国家、拉美国家、亚洲发展中国家、转型国家等不同类型的20个国家作聚类分析。描述信息基础设施的变量主要的有六个:call——千人拥有电话号码,movecall——每千户居民蜂窝移动电话,fee——高峰时期每三分钟国际电话成本,computer——每千人拥有的计算机数,mips——每千人中计算机功率,net——每千人互联网络户主数。 序号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 country 美国 日本 德国 瑞典 瑞士 丹麦 新加坡 韩国 巴西 智利 墨西哥 俄罗斯 波兰 凶牙利 泰国 印度 法国 英国 call 631.60 498.40 557.60 648.10 644.00 620.30 498.40 434.50 81.90 138.60 92.20 174.90 169.00 262.20 78.60 13.60 559.10 521.10 movecall 161.90 143.20 70.60 281.80 93.50 248.60 147.50 56.10 73.00 16.30 8.20 9.80 5.00 6.50 49.40 88.40 27.80 0.30 42.90 122.50 fee 0.36 3.57 2.18 1.40 1.98 2.56 2.50 3.68 3.36 3.02 1.40 2.61 5.12 3.68 2.66 4.19 4.95 6.28 1.27 0.98 computer 403.00 176.00 199.00 286.00 234.00 296.00 284.00 119.00 99.00 19.00 31.00 31.00 24.00 40.00 68.00 53.00 22.00 2.00 201.00 248.00 mips 26073.00 10223.00 11571.00 16660.00 13621.00 17210.00 13578.00 6911.00 5795.00 876.00 1411.00 1751.00 1101.00 1796.00 3067.00 2734.00 1662.00 101.00 11702.00 14461.00 net 35.34 6.26 9.48 29.39 22.68 21.84 13.49 1.72 1.66 0.52 1.28 0.35 0.48 1.45 3.09 1.25 0.11 0.01 4.76 11.91 中国台北 469.40 马来西亚 195.50 例3、为了研究1982年全国各地区农民家庭收支的分布规律,根据抽样调查资料进行分类处理,共抽取28个省、市、自治区的样本,每个样本有六个指标,这六个指标反映了平均每人生活消费的支出情况,其原始数据见表3。
表3 1982年各地区农民生活消费支出抽样调查资料表 单位:元 序号 1 2 3 4 5 6 7 8 地区 北京 天津 河北 山西 内蒙 辽宁 吉林 黑龙江 食品 190.33 135.20 95.21 104.78 128.41 145.68 159.37 116.22 衣着 43.77 36.40 22.83 25.11 27.63 32.83 33.38 29.57 燃料 9.73 10.47 9.30 6.46 8.94 17.79 18.37 13.24 住房 60.54 44.16 22.44 9.89 12.58 27.29 11.81 13.76 生活用品及其它 49.01 36.49 22.81 18.17 23.99 39.09 25.29 21.75 文化生活服务支出 9.04 3.94 2.80 3.25 3.27 3.47 5.22 6.04 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 上海 江苏 浙江 安徽 福建 江西 山东 河南 湖北 湖南 广东 广西 四川 贵州 云南 陕西 甘肃 青海 宁夏 新疆 221.11 144.98 169.92 153.00 144.92 140.54 115.84 101.18 140.64 164.02 182.55 139.08 137.80 121.67 124.27 106.02 95.65 107.12 113.74 123.24 38.64 29.12 32.75 23.09 21.26 21.59 30.76 23.26 28.26 24.74 20.52 18.47 20.74 21.53 19.81 20.56 16.82 16.45 24.11 38.00 12.53 11.67 12.72 15.62 16.96 17.64 12.20 8.46 12.35 13.63 18.32 14.68 11.07 12.58 8.89 10.94 5.70 8.98 6.46 13.72 115.65 42.60 47.12 23.54 19.52 19.19 33.61 20.20 18.53 22.20 42.40 13.41 17.74 14.49 14.22 10.11 6.03 5.40 9.61 4.64 50.82 27.30 34.35 18.18 21.75 15.97 33.77 20.50 20.95 18.06 36.97 20.66 16.49 12.18 15.53 18.00 12.36 8.78 22.92 17.77 5.89 5.74 5.00 6.39 6.73 4.94 3.85 4.30 6.23 6.04 11.68 3.85 4.39 4.57 3.03 3.29 4.49 5.93 2.53 5.75 例4为了研究世界各国森林、草原资源的分布规律,共抽取了21个国家的数据,每个国家4项指标,原始数据见表4,试用该数据对别国进行聚类分析。 序国别 号 1 2 3 4 5 6 7 8 9 中国 美国 日本 德国 英国 法国 意大利 加拿大 澳大利亚 森林面积(万公顷) 11978 28446 2501 1028 210 1458 635 32613 10700 92000 458 868 161 929 634 385 6748 2180 森林覆盖率(%) 12.5 30.4 67.2 28.4 8.6 26.7 21.1 32.7 13.9 41.1 35.8 24.8 17.4 36.3 26.7 34.7 20.5 84.0 林木积蓄量(亿立方米) 93.5 202.0 24.8 14.0 1.5 16.0 3.6 192.8 10.5 841.5 8.9 11.4 2.5 11.4 11.3 2.5 29.0 33.7 草原面积(万公顷) 31908 23754 58 599 1147 1288 514 2385 45190 37370 168 405 129 640 447 200 1200 1200 10 前苏联 11 捷克 12 波兰 13 匈牙利 14 南斯拉夫 15 罗马尼亚 16 保加利亚 17 印度 18 印度尼西亚 19 尼日利亚 20 墨西哥 21 巴西 1490 4850 57500 16.1 24.6 67.6 0.8 32.6 238.0 2090 7450 15900 例5 若要从沪市的蒲发银行、齐鲁石化、东北高速、武钢股份、东风汽车等53家上市公司中优选适合开放式基金组合投资的10只股票,我们以总股本和流通股本为分类标志,根据这53家公司的总股本和A股流通股本数据(见表5.3),用聚类分析法将它们分成若干类,再从各类公司中选出比较活跃的股票建立股票池。
表5.3 53家上市公司股本资料 单位: 十万股 编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 公司名称 蒲发银行 齐鲁石化 东北高速 武钢股份 东风汽车 中国国贸 首创股份 上港集箱 宁波联合 黄山旅游 中技贸易 古越龙山 皖维高新 南京高科 上海梅林 南京中达 新疆天业 青鸟华光 人福科技 明天科技 精密股份 禾嘉股份 云天化 明星电力 永鼎光缆 重庆路桥 长春热缩 总股本 24000 19500 11000 20900 10000 8000 11000 9000 3000 3000 1300 2000 2500 3400 3200 1400 2300 2200 1600 2265 2610 1300 3700 1500 2500 3100 1200 流通量 4000 3500 3000 3200 3000 1600 3000 2100 854 520 390 820 990 15545 1200 522 970 960 640 962 1330 510 1000 730 750 900 405 编号 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 公司名称 长征电器 浙江东日 三峡水利 中国泛旅 太极集团 重庆啤酒 东湖高新 道博股份 长江包装 青旅控股 鼎天科技 兴发集团 大元股份 离合器 邢台轧辊 维科精华 天坛生物 益金泰 山东临工 莲花味精 辽宁时代 苏福马 海鸟电子 先锋股份 轻工机械 宏盛科技 总股本 1700 1200 1750 2700 2530 1700 2760 1040 670 2700 760 1600 2000 1400 1700 2900 1920 4400 1800 6800 1060 830 872 920 2100 825 流通量 520 400 580 800 830 520 830 410 174 1170 294 400 600 420 450 1110 480 1360 1075 2800 300 300 398 300 240 112 例6沪市上市公司2001年末总股本在10000—12000万股、流通股本在3600—5050万股之间共有23家(对于股本结构在其它范围内的上市公司,用雷同的方法,可以建立相应的每股收益预测模型),各公司2000年及2001年有关的财务数据见表。 表 23家上市公司2000年及2001年财务资料 公司名称 平均每股财务指标(元) 净资产收益率(%) 收益(2001)X8 万东医疗 浙江东日 道博股份 金宇集团 铜峰电子 景谷林业 国电南自 铃锐股份 国光瓷业 亿阳信通 美罗股份 冰山橡塑 华微电子 金瑞科技 大西洋 洪城股份 成量股份 新宇软件 云维股份 金荔科技 西藏金珠 保税科技 界龙实业 0.29 0.02 0.24 0.13 0.40 0.22 0.24 0.25 0.29 0.69 0.37 0.15 0.22 0.29 0.21 0.17 0.02 0.19 0.42 0.31 0.21 0.12 0.05 收益(2000)X1 0.24 0.13 0.10 0.18 0.21 0.20 0.12 0.21 0.27 0.54 0.25 0.16 0.27 0.25 0.29 0.22 0.02 0.40 0.20 0.14 0.21 0.16 0.09 净资产 X2 3.10 3.00 4.03 4.73 4.54 2.94 3.89 4.00 3.49 8.39 4.60 2.97 4.83 6.44 3.82 4.23 1.12 1.85 3.35 2.17 2.89 2.65 1.81 现金流量X3 0.11 0.02 0.05 -0.32 0.57 -0.59 -0.19 0.03 0.45 2.21 0.07 0.04 0.10 -0.31 0.02 0.07 0.03 0.59 0.39 0.09 -0.62 0.61 0.22 主营收入X4 2.95 0.56 1.68 1.91 2.15 1.77 4.63 1.72 3.15 5.86 5.33 2.12 1.91 2.12 3.75 1.07 1.19 1.86 2.33 1.09 1.55 1.13 4.55 资产X5 4.53 3.65 8.26 6.79 6.60 5.38 7.60 5.83 8.05 12.81 7.74 5.05 7.78 8.09 5.51 5.48 3.22 3.60 4.52 5.34 2.89 4.83 6.48 (2001) X6 9.33 0.69 5.91 2.76 8.87 7.33 6.2 6.25 8.42 8.27 7.99 5.12 4.55 4.53 5.59 3.94 2.11 10.17 12.4 14.21 7.34 4.67 2.74 (2000) X7 8.06 4.3 5.1 5.65 4.91 2.29 10.83 6.09 8.43 6.87 5.71 9.17 14.86 3.95 16.9 10.39 1.71 13.91 6.3 7.56 6.6 11.48 4.95