表2.4.1 主要聚类方法的比较
适合的类型 聚类方法 算法效率 数据类型 k-means O(knt) 能够发现的数据形状 凸状、球状 凸状、球状 凸状、消除噪声的能力 弱 处理高维数据的能力 较低 聚类标准 类的标识 数值型 距离 代表点 K-prototype 划分的方法 PAM O(knt) 任意 弱 较低 距离 代表点 O(tk(n?k)) 2数值型 球状 凸状、球状 凸状、球状 凸状、较强 较低 距离 代表点 CLARA O(ks?k(n?k)) 数值型 2较强 较低 距离 代表点 CLARANS O(n) 2数值型 较强 一般 距离 代表点 BIRCH 层次的方法 CURE ROCK Chameleon DBSCAN 基于密度的方法 DENCLUE OPTICS O(n) O(n) O(n) O(n) 222数值型 数值型 符号型 数值型 数值型 球状 任意 任意 任意 任意 较强 较强 一般 一般 较强 较低 一般 较高 较高 一般 距离 距离 链接 链接 密度 代表点 代表点 代表点 代表点 密度区域 密度区域 密度区O(nlogn) O(nlogn) 数值型 任意 较强 一般 密度 比DBSCAN快 数值型 任意 强 高 较低 较高 高 密度 域 网格 网格 网格 基于网络的方法 STING Wavecluster CLIQUE O(n) O(n) 数值型 数值型 数值型 11
任意 任意 凸状、球状 强 强 一般 密度 密度 密度 较快
注:表中n为数据对象的数目,k为分类数目,t为迭代次数,s为抽样规模。
三、聚类方法在我国空气污染区域划分中的应用
(一)数据的选择
本文中所用到的数据来自《2010中国统计年鉴》中2009年各地区废气排放及处理情况,以及各地区二氧化硫排放量,所用的数据见附录A。
(二)聚类方法的选择
本文对所选择的数据采用不同的系统聚类法,以距离为聚类的标准。数据处理的时候采用了不同的距离,以及不同的聚类方法,从各个不同的角度对各地的空气污染情况进行了分析!能较准确的反应全国各地的空气质量。
(三)聚类分析
3.3.1 按各地区的空气污染严重程度不同对污染区域进行划分
运用SPSS软件并采用组内连接聚类方法,对各污染区域按空气污染严重程度的不同进行划分,可得如下聚类分析:
图3.3.1空气污染严重程度不同对污染区域进行划分参数设置
12
所得聚类分析的柱形图如下:
图3.3.2 空气污染程度聚类分析的柱形图
所得聚类分析的树状图如下:
13
图3.3.3 空气污染程度组内连接聚类分析的树状图
由上面的树状图,我们按各地区空气污染程度不同对各省份进行划分,所得结果如下表所示:
表3.3.1 运用组内连接聚类法按各地区空气污染程度不同进行划分的结果 类别 第一类 第二类 第三类 第四类
14
对应编号 对应地区 空气质量排名 26、28、10、23、24 云南、甘肃、上海、重庆、四川 1 2、3、29、30、22 北京、天津、青海、宁夏、海南 2 8、9、31 吉林、黑龙江、新疆 3 11、20、12、13、15、18、27 江苏、广东、浙江、安徽、江西、湖北、陕西 4 第五类 第六类 第七类 4、5、6、7、16 河北、山西、内蒙古、辽宁、山东 19、21 湖南、广西 6 17 河南 5 7
3.3.2按各地区的废气处理情况进行区域划分的中位数聚类分析
运用SPSS软件并采用中位数聚类分析法,对各污染区域按废气处理情况的不同进行划分,可得如下聚类分析:
聚类表 阶 群集组合 群集 1 群集 2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
2 3 7 6 26 5 18 1 22 13 4 12 24 7 5 15 3 22 4 6 12 14 10 29 16 27 30 19 20 23 25 9 21 31 8 11 18 24 28 17 13 15 系数 .992 .986 .986 .985 .966 .959 .933 .900 .879 .853 .849 .804 .769 .701 .625 .615 .490 .469 .399 .303 .231 15
首次出现阶群集 群集 1 0 0 0 0 0 0 0 0 0 0 0 0 0 3 6 0 2 9 11 4 12 群集 2 下一阶 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 7 13 0 0 10 16 22 17 14 20 26 15 16 22 18 20 19 21 17 25 24 21 23 27 25 24 26