对应的直方图为:
§2.2 表格法和图形法
数值方法主要是用数值来表示数据的中心位置(或者平均大小)和离散程度等。 1 3 5 3 3 1 3 2 3 2 4 4 ? ?
列1 平均 标准误差 中位数 众数 标准差 方差 峰度 偏度 区域 最小值 最大值 求和 观测数
2.833333 0.34451
3 3
1.193416 1.424242 -0.20317 -0.00713
4 1 5 34 12
它的平均数,中位数,众数差不多大。但大部分情况不是这样的,例如: §表2.3 某保险公司赔款样本数据频率分布表
赔款数 赔款次数 0--400 2 400--800 32 800--1200 24 1200--1600 19 1600--2000 10 2000--2400 6 2400--2800 3 2800--3200 2 3200--3600 1 3600--4000 1 合计 100
平均数,中位数,众数分别为:1224,1000,600,这三者相差较大。 左峰的时候:众数?中位数?平均数, 右峰的时候:平均数?中位数?众数。
平均数容易受到异常值的影响,故不能很好地代表中心位。
例如某地农户收入增长了2.9%,但减收的农户却是60%,为了更好地反映中心位,所以很多情况采用?%的切尾平均数。人们熟知的去掉最大值与最小值的平均数也是切尾平均数。
§2.4 经济专业毕业生的月收入数据
毕业生 月收入 1 1850 2 1950 3 2050 4 1880 5 1750 6 1700 毕业生 月收入 7 1890 8 2130 9 1940 10 2340 11 1920 12 1880 去掉最大值2340,最小值1700,的切尾平均数比总体平均数要小,它为1924,而总体平均数为1940.但中位数都一样,均为1905,中位数表现了稳定性。因此我们不仅用平均数表示中心位置,有时候也用中位数描述数据的中心位置。
另外,众数也能用来描述数据的中心位置,尤其是定性数据的中心位置,例如:
§2.5 有缺陷的小巧克力不合格品问题的频数频率分布表 代码 1 2 3 4 5 问题 外层不够 两个粘在一起 被压扁 外层太多 破裂 频数 486 43 295 84 12 频率(%) 52.83 4.67 32.07 9.13 1.30 这种情况下计算平均数和中位数没有多大意义,相反众数为1,众数值得关注。
一般情况,平均数,中位数,众数应该综合考量,这三个数目,使得我们可以从不同角度表达数据的中心位置,给评估对象一个全面的评价,例如:某企业的职工收入的平均数为5700,元,中位数为3000元,众数为2000元,这说明收入2000元的人最多,有一半职工低于3000元,有一半职工高于3000元,平均数5700大于中位数,说明有些员工工资特别高。
平均数与中位数为何可以表示数据的中心位置呢?主要是因为:
?(x?x)ii?1nii?1n2a?min?(xi?a)i?1nin2 (2.1)
?x?me?min?x?a (2.2)
ai?1这说明用不同的距离标准衡量,平均数与中位数到各点的距离最近。 另外平均数的物理意义还有重心的意义,在重心位置,系统可以平衡,在图2.8处,平均数为4,中位数为3,就意味着把树木集中在3这点,所走
的路最短。
* *
* *
* * * * * * * 1 2 3 4 5 6 7 8 9 中位数 平均数
§2.2.2 表示离散程度的数值
表示离散程度的数值一般有方差,四分位数,而四分位数又分上四分位数与下四分位数。
为表示数据的离散程度,我们一般用五个数概括,即最小值,下四分位数,中位数,上四分位数,最大值,分别记为Q0,Q1,Q2,Q3,Q4.
例如:将12名经济专业毕业生月收入数据处理结果如下:(用Minitab) 数据容量N 平均数Mean 中位数Median 切尾平均数TrMean 标准差StDev 标准误SEMean 最小值Minimum 最大值Maximum 下四分位数Q1 上四分位数Q3
12 1940 1905 1924 170.6 49.3 1700 2340 1857.5 2025