第三章 数据分布特征的描述
(一)教学目的
通过本章的学习,使同学们正确理解各种指标的概念及计算方法,学会运用相应的统计指标对数据的分布特征进行分析说明。
(二)基本要求
使学生熟练掌握数据分布特征的描述方法。 (三)教学要点
1、集中趋势的测度指标及其计算方法; 2、离散趋势的测度指标及其计算方法; 3、总体分布的偏度与峰度的测度。 (四)教学时数 9——10课时 (五)学习内容 本章共分三节:
第一节 数据分布集中趋势的测定
一、定类数据集中趋势的测度——众数(Mode) (一) 概念要点
众数是指一组数据中出现次数最多的变量值,用
Mo表示。从变量分布的角度看,众数
是具有明显集中趋势点的数值,一组数据分布的最高峰点所对应的数值即为众数。当然,如果数据的分布没有明显的集中趋势或最高峰点,众数也可以不存在;如果有多个高峰点,也就有多个众数。
1.集中趋势的测度值之一 2.出现次数最多的变量值 3.不受极端值的影响
4.可能没有众数或有几个众数
5.主要用于定类数据,也可用于定序数据和数值型数据 众数的不唯一性:
无众数原始数据: 10 5 9 12 6 8 一个众数原始数据: 6 5 9 8 5 5 多于一个众数原始数据: 25 28 28 36 42 42 (二)众数的计算
根据未分组数据或单变量值分组数据计算众数时,我们只需找出出现次数最多的变量值即为众数。对于组距分组数据,众数的数值与其相邻两组的频数分布有一定的关系,这种关系可作如下的理解:
设众数组的频数为fm,众数前一组的频数为f?1,众数后一组的频数为f?1。当众数相邻两组的频数相等时,即f?1=f?1,众数组的组中值即为众数;当众数组的前一组的频数多于众数组后一组的频数时,即f?1>f?1,则众数会向其前一组靠,众数小于其组中值;当众数组后一组的频数多于众数组前一组的频数时,即f?1<f?1,则众数会向其后一组靠,
1
众数大于其组中值。基于这种思路,借助于几何图形而导出的分组数据众数的计算公式如下:
下限公式:
Mo?L? 上限公式:
fm?f?1??d?L?1?d(fm?f?1)?(fm?f?1)?1??2 (3.1) fm?f?1??d?U?2?d(fm?f?1)?(fm?f?1)?1??2 (3.2)
Mo?U?
式中:L表示众数所在组的下限; U表示众数所在组的上限; d表示众数所在组的组距。
[例3.1] 现利用表3.1—1资料计算3000户农民家庭年人均收入的众数。
表3. 1 某地区农民家庭收入资料
从表3.1中的数据可以看出,出现频数最多的是1050,即众数组为1400—1600这一组
fm=1050,f?1=480,f?1=600,根据(3.1)式可得众数为:
Mo?1400?
1050?480?200(1050?480)?(1050?600)
=1511.8(元)
利用上述公式计算众数时是假定数据分布具有明显的集中趋势,且众数组的频数在该组内是均匀分布的,若这些假定不成立,则众数的代表性就会很差。从众数的计算公式可以看出,众数是根据众数组及相邻组的频率分布信息来确定数据中心点位置的,因此,众数是一个位置代表值,它不受数据中极端值的影响。
二、定序数据集中趋势的测度——中位数和分位数 (一)概念要点
中位数是将总体各单位标志值按大小顺序排列后,处于中间位置的那个数值。 1.集中趋势的测度值之一 2.排序后处于中间位置上的值
2
3.不受极端值的影响
4.主要用于定序数据,也可用数值型数据,但不能用于定类数据 5.各变量值与中位数的离差绝对值之和最小,即
?Xi?1ni?Me?min(3.3)
(二)中位数的计算
根据未分组资料和分组资料都可确定中位数。有三种情况:
1.对于未分组的原始资料,首先必须将标志值按大小排序。设排序的结果为:
x1?x2?x3?????xn
位数就可以按下面的方式确定:
Me=
则中
xn?12 ,当n为奇数 (3.4)
x?xnn2Me=
2?12,当n为偶数 (3.5)
2.对于单项式变量数列资料,由于变量值以及序列化,故中位数可以直接按下面的方式确定:
xMe=
?f?12 ,当?f为奇数 (3.6)
x?f2?x?f22?1,当?f为偶数 (3.7)
3.对于组距式变量数列,确定中位数也需要分两步进行:
(1)从变量数列的累计频数栏中找出第?f个单位所在的组,即“中位数组”,该组
2的上、下限就规定了中位数的可能取值范围;
(2)假定在中位数组内的各单位是均匀分布的,就可利用下面的公式计算中位数的近似值:
3
?fMe?LMe?2?sMe?1fMe?dMe (3.8)
?f
?UMe?2?s?Me?1fMe?dMe
(3.9)
上面两式分别称作中位数的“下限公式”。式中,Me?1是到中位数组前面一组为止的向上累计频数,Me?1则是到中位数组后面一组为止的向下累计频数;
ss?dMe=UMe?LMe为中位数组的组距。
(三)分位数
中位数是从中间点将全部数据等分为两部分。与中位数类似的还有四分位数(quartile)、十分位数(decile)和百分位数(percentile)等。它们分别是用3个点、9个点和99个点将数据四等分、10等分和100等分后各分位点上的值。这里只介绍四分位数的计算,其他分位数与之类似。
一组数据排序后处于25%和75%位置上的值,称为四分位数,也称四分位点。
四分位数是通过三个点将全部数据等分为四部分,其中每部分包含25%的数据。很显然,中间的四分位数就是中位数,因此通常所说的四分位数是指处在25%位置上的数值(下四分位数)和处在75%位置上的数值(上四分位数)。与中位数的计算方法类似,根据未分组数据计算四分位数时,首先对数据进行排序,然后确定四分位数所在的位置。
1.四分位数位置的确定
设下四分位数为QL ,上四分位数为QU,对于未分组的原始数据,各四分位数的位置分别为:
(1)未分组数据:
QL位置?n+14Qu位置=3(n+1)4
当四分位数的位置不在某一个位置上时,可根据四分位数的位置,按比例分摊四分位数两侧的差值。
[例3.2]在某城市中随机抽取9个家庭,调查得到每个家庭的人均月收入数据如下(单位:元),1500、750、780、1080、850、960、2000、1250、1630,计算人均月收入的四分位数。
n+19+1QL的位置===2.544解:,即QL在第2个数值(780)和第3个数值(850)之间0.5的位置上,因此
QL=(780+850)÷2=815(元)
4
QU的位置=3(n+1)3?(9+1)==7.544,即QU在第7个数值(1500)和第8个数值(1630)
之间0.5的位置上,因此
QU=(1500+1630)÷2=1565(元)
QL和QU之间包含了50%的数据,因此,我们可以说有一半的家庭人均月收入在815~1565元之间。
(2)组距分组数据:
QL位置??f4 QU位置?3?f4
数值型分组数据的四分位数(计算公式)
QL??LL下四分位数:L()
?f?SL?4?iLfL(3.
10)
四分位数上
10)
QU??LUUU
三、数值型数据集中趋势的测度
33?f?f??SSUU44????iiUUffUU(3.
(一)算术平均数
算术平均数(Arithmetic mean)也称为均值(Mean),是全部数据算术平均的结果。算术平均法是计算平均指标最基本、最常用的方法。计算公式为:
算术平均数?总体标志总量
总体单位总量
很多社会经济现象,总体标志总量常常是总体单位变量值的算术总和。例如,工人工资总额是总体中每个工人工资的总和,某地区小麦总产量是所有耕地小麦产量的总和。在总体标志总量和总体单位总量的基础上,就可以计算平均指标。
算术平均数与强度相对数都是两个总量指标的比值,也都是有名数,都反映了相互联系的两个现象之间的数量对比关系,计算方法也非常相似。但它们却是两个性质不同的统计指标,主要区别有两点:
其一,子项指标与母项指标的关系不同。平均数的子项指标与母项指标属于同一个统计总体,是同一统计总体的总体标志总量与总体单位总量的比值,而强度相对数则是来自两个不同总体但有联系的总量指标之比;
其二,算术平均数的子项指标(标志总量)随着母项指标(总体单位数)的变动而变动,二者互相适应,而强度相对数的子项指标同母项指标之间不存在这样的关系。
5