北航数理统计聚类分析大作业(2)

2019-07-31 09:36

表2 07年地区生产总值各项指标数据

2 地区经济发展的聚类分析和判别分析

地区生产总值主要包括的内容有：

（1）第一产业是农业，包括：林业、牧业、渔业等；

（2）第二产业是工业，包括：采掘业、制造业、自来水、电力、蒸汽、热水、煤气业）和建筑业；

（3）第三产业是除上述各业以外的其它产业，主要包括：交通运输业、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业及其他产业。

2.1 相关自变量的选择

本文从分析各地区生产总值的主要内容出发，展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大，为了便于分析，我们将农林牧渔等第一产业部分合为一类，与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业、其他产业等元素一起作为自变量进行聚类分析和判别分析。需要聚类和判别的地区为北京、上海等31个省市、自治区、直辖市（不包括港澳台地区）。

2.2 聚类分析

首先采取系统聚类法（hierarchical cluster）对所有31个地区聚类进行分析（数据为2007年度地区生产总值），表3表示所有观测量都已加入聚类判别分析。表4为聚类分析进度表，表中列出了观测量或类合并的详细步骤。

表3 处理过程汇总

表4 聚类表

图1 树状谱系图

图1为分析得到的树状谱系图，图中横向聚类表示差异的大小，从图中可以清晰的看出整个的观测量的聚类过程。

分析结果显示，青海、宁夏、海南、西藏、贵州、甘肃、重庆、新疆和云南等省份可以划归一类，它们在经济发展中处于不利地位，是经济欠发达地区。北京、河北、河南、上海、浙江、江苏、山东、广东等省份作为经济较发达地区，可以划归另一类。其余省份划归第三类，为经济中等发达地区。

在此分类的基础上可以对结果进行判别分析，继而确定聚类结果的准确性。

2.3 判别分析

为了鉴别以上聚类分析结果是否准确，我们选取2006年的数据对上述分类进行判别分析。这里我们选用Fisher判别法构造判别函数，

分析结果如下：

表5 案例分析过程

表5表明所有变量都进入了判别分析。

表6 输入/删除的变量

共3页:

北航数理统计聚类分析大作业(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档