四分位差主要用于测度顺序数据的离散程度。当然,对于数值型数据也可以计算四分位差,但不适合于分类数据。
[例3.11]根据例3.2资料计算上下四分位数,那么家庭人均月收入的四分位差为:
Qd?QU?QL?1565?815?750
四、全距
全距又称极差,是一组数据的最大值与最小值之差,用R表示。计算公式为: 式中,
R?max(Xi)?min(Xi) (3.20)
max(Xi)、min(Xi)分别表示为一组数据的最大值与最小值。由于全距是根据一组
数据的两个极值表示的,所以全距表明了一组数据数值的变动范围。R越大,表明数值变动的范围越大,即数列中各变量值差异大,反之,R越小,表明数值变动的范围越小,即数列中各变量值差异小。
[例3.12] 例3.1给出的40个同学统计学的考试成绩,其最高成绩为99分,最低成绩为36,则全距为:
R?99?36?63(分)
如果资料经过整理,并形成组距分配数列,全距可近似表示为:
R≈最高组上限值-最低组下限值
全距是描述离散程度的最简单度量值,计算简单直观,易于理解,但其数值大小易受极端变量值的影响,且不反映中间变量值的差异,因而不能准确描述出数据的离中程度。
五、平均差(Mean deviation)
平均差是各变量值与其算术平均数离差绝对值的平均数,用Md表示。根据掌握资料的不同,平均差有以下两种计算方法:
1. 简单平均法
对于未分组资料,采用简单平均法。其计算公式为:
?x?xin
MD=
i?1n (3.21)
[例3.13] 某厂甲、乙两组工人生产某种产品的产量资料如表3.8所示。
表3.8 平均差计算表
16
根据表3.8资料可得:
x甲??xi?1ninxi?x?3756i?1??75?1.2M55nD甲(件) ==(件) xi?x?37580i?1??75?16M5n(件) D乙==5(件)
nn
x乙??xi?1nin从计算结果看,甲、乙两组平均生产件数相等,但由于甲组的平均差(1.2件)小于乙
组的平均差(16件),因而其平均数的代表性比乙组大。 2. 加权平均法
在资料分组的情况下,应采用加权平均式:
?x?xii?1kfiM D=
?fi?1ki (3.22)
[例3.14] 某企业100名工人的月工资资料如表3.9所示。 表3.9 平均差计算表
根据表3.9资料可得该企业的月平均工资和平均差为:
X??66250450?10?550?30?650?40?750?20?850?5??631105105 (元) 8475?80.7105(元)
MD?计算结果表明,该企业105名工人的月工资水平差异程度平均为80.7元。
平均差计算简便,意义明确,而且平均差是根据所有变量值计算的,因此它能够准确地、全面地反映一组数值的变异程度。但是,由于平均差是用绝对值进行运算的,它不适宜于代数形式处理,所以在实际应用上受到很大的限制。
六、方差和标准差(Variance 、Standard deviation)
方差是各变量值与其算术平均数离差平方的算术平均数。标准差是方差的平方根。 方差和标准差同平均差一样,也是根据全部数据计算的,反映每个数据与其算术平均
17
数相比平均相差的数值,因此它能准确地反映出数据的差异程度。但与平均差不同之处是在计算时的处理方法不同,平均差是取离差的绝对值消除正负号,而方差、标准差是取离差的平方消除正负号,这更便于数学上的处理。因此,方差、标准差是实际中应用最广泛的离中程度度量值。由于总体的方差、标准差与样本的方差、标准差在计算上有所区别,因此下面分别加以介绍。
(一)总体的方差和标准差
设总体的方差为?,标准差为?,对于未分组整理的原始资料,方差和标准差的计算公式分别为:
2?2??(Xi?1Ni?X)2 (3.23)
N2(X?X)?ii?1N??NK (3.24)
对于分组数据,方差和标准差的计算公式分别为:
?2?
?(Xi?1iK?X)2Fii?Fi?1 (3.25)
??
?(Xi?1KiK?X)2Fii?Fi?1 (3.26)
[例3.15] 现仍利用[例4.4.5]资料计算方差和标准差,计算过程见表3.10。
表3.10 方差和标准差计算表
?2? ???(Xi?1KiK?X)2Fii?Fi?11061905?10113.38105=(元2 ) ??2?10113.38?100.57(元)
18
(二)样本的方差和标准差
样本的方差、标准差与总体的方差、标准差在计算上有所差别。总体的方差和标准差在对各个离差平方平均时是除以数据个数或总频数,而样本的方差和标准差在对各个离差平方平均时是用样本数据个数或总频数减1去除总离差平方和。
设样本的方差为s,标准差为s,对于未分组整理的原始资料,方差和标准差的计算公式为:
2S2??(x?x)ii?1n2n?1 (3.27)
2S??(x?x)ii?1nn?1 (3.28)
对于分组数据,方差和标准差的计算公式为:
S2?
?(x?x)ii?1ki?1k2fi(?fi)?1 (3.29)
S??(x?x)ii?1ki?1k2fi(?fi)?1 (3.30)
[例3.16] 如果表3.10的数据为样本资料,则计算的样本方差和标准差为:
S2?
?(x?x)ii?1ki?1k2fi?1061905?10210.63105?1
(?fi)?1 S ?10210.63?101.05(元)
这与根据总体的方差和标准差计算公式计算的结果相差不大。当n很大时,样本方差S22与总体的方差?的计算结果相差很小,这时样本方差也可以用总体方差的公式来计算。 (三)是非标志的方差与标准差
在实际生活中,有些事物或现象的特征只表现为两种性质上的差异,例如,产品的质量表现为合格或不合格,人的性别表现为男或女,人们对某种意见表示为同意或不同意;对学生考试成绩分为及格和不及格,等等。这些只表现为是与否、有或无的标志,称为是非标志,也称为交替标志。在进行抽样估计时,是非标志的方差或标准差具有很重要的意义。
1. 成数(比例)
19
如前所述,是非标志只有两种表现,我们把总体中或样本中具有某种表现或不具有某种表现的单位数占全部单位数的比重称为成数,它反映了总体或样本中“是”与“非”的构成,并且代表着两种表现或性质各反复出现的程度,即频率。例如,某一批产品,合格品占95%,不合格品占5%。在这里。95%和5%均为成数。
若以
N1表示总体中具有某种表现的单位数,N0表示总体中不具有某种表现的单位数,
N表示总体单位数,则成数可表示为:
??
NN11???0N 或 N
对于样本来说,与总体则有
N1对应的就是n1,与总体N0对应的就是n0,样本单位数为n,
p?
nn11?p?0n 或 n
2. 是非标志的平均数
是非标志是一种品质标志,其表现为文字。因此,在计算平均数时,首先需要将文字表现进行数量化处理。用“1”表示具有某种表现,用“0”表示不具有某种表现,然后以“1”和“0”作为变量值,计算加权算术平均数。现以总体为例予以说明。
X??
1?N1?0?N0N1???N1?N0N (3.31)
p。
由此可知,总体是非标志的平均数,即为被研究标志具有某种表现的成数P,同样可
得样本是非标志的平均数即为被研究标志具有某种表现的成数
3. 是非标志的方差与标准差
将经过量化处理的是非标志的表现“1”和“0”作为变量值代入总体的方差计算公式:
??
2?(Xi?X)2Fi(1??)2N1?(0??)2N0???FiN1?N0
??(1??)
2?? 为区别于一般变量值的方差,我们将是非标志的方差记为,即 2???(1??) (3.32) ?
是非标志的标准差为:
????(1??) (3.33)
2类似地,可得样本是非标志的方差s和标准差s为:
20