2 描述性统计分析
2.1 统计量分析
为了获得2012年昆明市空气质量状况的整体信息,我们利用SPSS软件,对筛选出来的有效数据进行描述性统计分析。首先获得了优、良、轻度、中度、重度和严重污染的样本均值、方差、标准差,如表2所示:从数据统计分析表我们可以看出,昆明市2012年空气质量等级以良居多,每月平均有21天空气质量达到良等级,有9天达到优,而轻度污染的不足1天。从数据的波动程度来看,空气质量为优和良的天数的波动都较大,说明这两种等级的出现频数较不稳定。从数据的分布来看,空气质量为优、轻度污染的数据偏度大于0,说明这两组数据有右偏态,即处于这两个等级均值右边的月份数据更为分散,而良为左偏,则在均值左边的月份数据更为分散。从极端数据分布情况来看,所有空气质量的峰度值大于0,说明全部等级下数据含有较多远离均值的极端数据。
均值 x=?xi 方差 s2=
i?1_n1(xi?x) 标准差 s=s2??n?1i?1_3n_21?(xi?x) n?1i?1_n2n1偏度 g1=
(n?1)(n?2)s3?(xi?x)i?1n
_n(n?1)1峰度 g2=
(n?1)(n?2)(n?3)s4 3(n?1)2 (xi?x)??(n?2)(n?3)i?1n4表2 各月份空气质量统计数据 优 良 轻度污染 有效的 N (列表状态) N 统计量 12 12 12 12 均值 统计量 9.42 21.00 .08 标准差 统计量 8.073 7.851 .289 方差 统计量 65.174 61.636 .083 偏度 统计量 1.290 -1.293 3.464 标准误 .637 .637 .637 峰度 统计量 2.138 2.125 12.000 标准误 1.232 1.232 1.232 图 1 所示为六个等级数据的箱线图,从图中也可以看出只有轻度污染的数据中存在异常数据,而且轻度污染的箱线图变成了一条线,说明轻度污染的频数大多为0,而只有一个月份出现轻度污染,因此出现了图中唯一一个异常值。优的数据中,中位数在10左右,而最大值接近30,说明优的频数差异比较大。
2
图1 2013 年空气质量各等级频数箱线图
图2所示的是每月空气质量等级状况柱状图,从图中可以看出每月良的天数最多,其次是优,其他空气质量等级在每月出现的天数较少,说明空气质量不错。
图 2 2013 年大连市每月空气质量等级状况柱状图
3
图3所示为每月各种等级空气质量的频数折线图,横坐标表示月份,纵坐标表示天数,用折线走势说明不同等级空气质量有明显的季度变化趋势。从图中可以看出,每月良的天气居多,到了夏秋季节,空气质量好转,优的天数明显增加,污染的天气都比较少。
图 3 2012年每月空气质量变化折线图
由以上图中可以看出,4月到7月这几个月份的空气质量等级优的频数明显增多,而过了7月后优的频数开始下降,说明空气质量从4月开始变好,到了7月达到峰值,然后开始下降,说明空气质量分布有明显的季节性,夏季的天气状况好于其他季度。
2.2 正态性检验
以各种天气状况出现的频数作为因变量,不同天气等级为自变量,给三组数据做正态性检验。以下是各个等级的频数分布图
4
图 4 等级数据频数分布直方图
表 3. 等级数据正态性检验偏度值与峰度值 优 良 轻度污染 有效的 N (列表状态) N 统计量 12 12 12 12 偏度 统计量 1.290 -1.293 3.464 标准误 .637 .637 .637 峰度 统计量 2.138 2.125 12.000 标准误 1.232 1.232 1.232
结合图4以及表3可以发现,轻度污染级别的数据量太小,结果显示数据并没有明显的正态分布特点,但是为了研究起见,我们认为这三组等级的数据都是近似服从正态分布。
再以各种天气状况出现的频数作为因变量,不同月份为自变量,给11组数据做正 态性检验,如图5所示。
5
6