图 5 月份数据频数分布直方图
7
表4 月份数据正态性检验偏度值 一月 二月 三月 四月 五月 六月 七月 八月 九月 十月 十一月 十二月 有效的 N (列表状态) N 统计量 3 3 3 3 3 3 3 3 3 3 3 3 3 均值 统计量 10.33 9.67 10.33 10.00 10.33 10.00 10.33 10.33 10.00 10.33 10.00 10.33 偏度 统计量 -1.708 1.724 1.695 1.574 .535 -1.630 1.702 .863 -.935 .863 1.071 1.732 标准误 1.225 1.225 1.225 1.225 1.225 1.225 1.225 1.225 1.225 1.225 1.225 1.225
结合图5以及表4可以发现,部分数据之间与正态分布不吻合,但我们同样认为所有12个月份的数据都是近似服从正态分布。
8
3 方差分析
由于影响每个月不同空气质量等级的自变量是月份以及空气质量等级,属于定性变量,通常称这种变量为因素,通过方差分析可以了解这些因素在不同状态下对因变量取值是否有显著差异。方差分析是建立在假设检验上的统计分析方法,其基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定因素对研究结果影响力的大小。整个方差分析的基本步骤如下:
1、建立检验假设;
H0:多个样本总体均值相等;
H1:多个样本总体均值不相等或不全等。检验水准为 0.05。 2、计算检验统计量 F 值; 3、确定P值并推断分析结果。
总数平方和SST=??(yij?y) 组间平方和SSA=?ni(yi?y)2
2i?1j?1nni?1nn_n__组内平方和SSE=??(yij?yi)2
i?1j?1_采用单因素方差分析的方法,仅以三个指标作为影响因素,12个月份的观测数据可 视为每个月进行一次的12个独立重复试验。 使用SPSS 软件求解,表6所示为方差齐性分析表,其中,显著性值为0.002<0.05,说明方差不具有齐性,从而使用非参数检验的方法。
表6 方差齐性分析表 Levene 统计量 7.532
df1 2 df2 33 显著性 .002 表7所示为方差分析表,得出显著性值0<0.05,说明这三个指标之间是有显著性差异的,换句话说,不同的空气质量等级影响了每个等级出现的频数。 表7 方差分析表 组间 组内 总数 平方和 2635.167 1395.833 4031.000 df 2 33 35 均方 1317.583 42.298 F 31.150 显著性 .000
由于方差不具有齐性,所以可以进行事后检验。利用 SPSS 软件进行 Dunnett T3 非 参数检验。
表8显示了两两比较的结果,发现优与良的差异最大,良与其他等级的差别也比较
9
大,轻度污染与良的差异最大。正是因为这样,才导致方差的非齐次性,通过两两间的比较也可以知道这三类之间的均值不显著相等 表 8 非参数检验分析表
(I) 类别 1 2 3 (J) 类别 2 3 1 3 1 2 均值差 (I-J) -11.583 9.333 11.583 20.917 -9.333 -20.917 ******95% 置信区间 标准误 3.251 2.332 3.251 2.268 2.332 2.268 显著性 .005 .006 .005 .000 .006 .000 下限 -19.95 2.84 3.21 14.61 -15.82 -27.23 上限 -3.21 15.82 19.95 27.23 -2.84 -14.61 10
4 聚类分析
对每个月份的空气质量进行初步分析时我们发现12个月的数据之间有明显的分级,为了了解2012年不同月份的空气质量的分类,可以采用聚类分析法,对12个月进行分类,分析得出那几个月的空气质量类似。聚类分析指将对象的集合分组成为由类似的象组成的多个类的分析过程,一般有两种类型,按样品聚类或按指标聚类。其基本思想是通过定义样本或变量间近似程度的度量,以此为基础,将相近的样本或变量归为一类。在此,我们可以按月份聚类(样本聚类)分析得出空气质量相似的月份,同时也对等级进行聚类(指标聚类),分析哪几个等级之间相似程度较大。
4.1按月份聚类
使用谱系聚类法对月份进行聚类分析。谱系聚类法根据生物学中植物分类思想进行 分类的方法。首先视个样本自成一类,然后把最相近的样本聚为小类,再将已聚合的小 类按其相似性(类间距离度量)再聚合,随着相似性的减弱,最后将一切子类都聚合成 一个大类,从而得到一个按相似性大小聚合起来的谱系图,再进一步根据实际情况确定 合适的分类个数。
利用SPSS软件求解,使用最短距离法定义类间距离,得到月份分类树状图以及冰 柱图。如图 6、7所示。
图 6 月份间聚类树状图
11