表2 07年地区生产总值各项指标数据
2 地区经济发展的聚类分析和判别分析
地区生产总值主要包括的内容有:
(1)第一产业是农业,包括:林业、牧业、渔业等;
(2)第二产业是工业,包括:采掘业、制造业、自来水、电力、蒸汽、热水、煤气业)和建筑业;
(3)第三产业是除上述各业以外的其它产业,主要包括:交通运输业、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业及其他产业。
2.1 相关自变量的选择
本文从分析各地区生产总值的主要内容出发,展开对地区经济发展的聚类分析。鉴于第一产业的各个元素在地区生产总值中所占比重不大,为了便于分析,我们将农林牧渔等第一产业部分合为一类,与工业、建筑业、交通运输、仓储和邮政业、批发和零售业、住宿和餐饮业、金融业、房地产业、其他产业等元素一起作为自变量进行聚类分析和判别分析。需要聚类和判别的地区为北京、上海等31个省市、自治区、直辖市(不包括港澳台地区)。
2.2 聚类分析
首先采取系统聚类法(hierarchical cluster)对所有31个地区聚类进行分析(数据为2007年度地区生产总值),表3表示所有观测量都已加入聚类判别分析。表4为聚类分析进度表,表中列出了观测量或类合并的详细步骤。
表3 处理过程汇总
表4 聚类表
图1 树状谱系图
图1为分析得到的树状谱系图,图中横向聚类表示差异的大小,从图中可以清晰的看出整个的观测量的聚类过程。
分析结果显示,青海、宁夏、海南、西藏、贵州、甘肃、重庆、新疆和云南等省份可以划归一类,它们在经济发展中处于不利地位,是经济欠发达地区。北京、河北、河南、上海、浙江、江苏、山东、广东等省份作为经济较发达地区,可以划归另一类。其余省份划归第三类,为经济中等发达地区。
在此分类的基础上可以对结果进行判别分析,继而确定聚类结果的准确性。
2.3 判别分析
为了鉴别以上聚类分析结果是否准确,我们选取2006年的数据对上述分类进行判别分析。这里我们选用Fisher判别法构造判别函数,
分析结果如下:
表5 案例分析过程
表5表明所有变量都进入了判别分析。
表6 输入/删除的变量