s2p?p(1?p) (3.34) (3.35)
sp?p(1?p)[例3.17] 从一批产品中随机抽取100件产品进行质量测试,测试的结果为96件合格,
4件不合格,试计算成数的方差和标准差。
根据所给资料可得:
p?
496?96%1?p??40100
s2p?96%?4%?3.84%sp?3.84%?19.6%
是非标志的方差、标准差,当p?0.5时取得最大值,方差最大值为0.25,标准差最大值为0.5,也就是说,此时是非标志的变异程度最大。如某学生群体中男生数和女生数相等,
即男女生的成数均为0.5(或50%),说明该学生群体性别差异程度最大。是非标志的方差、标准差的最小值均为0。
4. 方差的数学性质
⑴ 变量的方差等于变量平方的平均数减去变量平均数的平方,即
222X?(X)?? (3.36)
NNX?其中,
2?Xi?12iNX? ,
?Xi?1iN
方差的该数学性质可使变量方差的计算更为简便。
⑵各变量值对算术平均数的方差,小于等于对任意常数的方差。用公式表示即为:
?(Xi?1Ni?X)2?(Xi?1Ni?A)2 (A为任意常数) (3.37)
N≤
N(四)相对位置的度量:标准分数
有了均值和标准差之后,我们可以计算一组数据中各个数值的标准分数(Standard score),以测度每个数据在该组数据中的相对位置,并可以用它来判断一组数据是否有离群值。
变量值与其平均数的离差除以标准差后的值,称为标准分数,也称标准化值或Z值。
设标准分数为Z,则有:
zi?xi???或zi?xi?xs (3.38)
标准分数也给出了一组数据中各数值的相对位置。比如,如果某个数值的标准分数为-2,我们就知道该数值低于均值2倍的标准差。 (4.4.21) 式也就是我们常用的统计标准化公式,在对多个具有不同量纲的变量进行处理时,常常需要对各变量数值进行标准化处理。
【例3.18】根据例3.2的数据,计算每个家庭人均收入的标准分数。
,s?431.68。计算每个家庭人均月收入的标准 解:根据已知数据计算得:x?1200 21
分数如表3.11所示。
表3.11 9个家庭人均月收入的标准分数
由表3.11可知,收入最低的家庭其人均收入与平均数相比低1.042个标准差;而收入最高的家庭人均收入比平均数高1.853个标准差。
标准分数均值为0,标准差为1,即:
?zi1??xi?x?10z??????0nnsns??zi?z???zi?0??z21??xi?x?s22s??????2?12nnnnss22(3.39) (3.40)
实际上,z分数只是将原始数据进行了线性变换,它并没有改变一个数据在该组数据
中的位置,也没有改变该组数分布的形状,而只是将该组数据变为均值为0、标准差为1。
经验法则表明:当一组数据对称分布时
——约有68.27%的数据在平均数加减1个标准差的范围内 ——约有95.45%的数据在平均数加减2个标准差的范围内 ——约有99.73%的数据在平均数加减3个标准差的范围内。
由此可见,一组数据中低于或高于平均数3个标准差以上的数据很少。因此,在统计上,往往将平均数3个标准差以外的数据称为异常值或离群值。
七、相对离散程度:离散系数
前面介绍的全距、平均差、方差和标准差都是反映一组数值变异程度的绝对值,其数值的大小,不仅取决于数值的变异程度,而且还与变量值水平的高低、计量单位的不同有关。所以,不宜直接利用上述变异指标对不同水平、不同计量单位的现象进行比较,应当先做无量纲化处理,即将上述的反映数据的绝对差异程度的变异指标转化为反映相对差异程度的指标,然后再进行对比。
离散系数是反映一组数据相对差异程度的指标,是各变异指标与其算术平均数的比值。离散系数是一个无名数,可以用于比较不同数列的变异程度。离散系数通常用V表示,常用的离散系数有平均差系数和标准差系数,其计算公式分别为:
VM?MD?100%X (3.41)
V???X?100% (43.42)
22
[例3.19] 甲乙两组工人的平均工资分别为138.14元、176元,标准差分别为21.32元、24.67元。两组工人工资水平离散系数计算如下:
V?甲?V?乙21.32?100%?15.438.14 24.67??100%?14.026
从标准差来看,乙组工人工资水平的标准差比甲组大,但不能断言,乙组平均工资的代
表性小。这是因为两组工人的工资水平处在不同的水平上,所以不能直接根据标准差的大小作结论。而正确的方法要用消除了数列水平的离散系数比较。从两组的离散系数可以看出,甲组相对的变异程度大于乙组,因而乙组平均工资的代表性要大。
第三节 数据分布偏度与峰度的测定
偏度是对数据分布在偏移方向和程度所作的进一步描述;峰度是用来对数据分布的扁平程度所做的描述。
对于偏斜程度的描述用偏态系数,扁平程度的描述用峰度系数。 集中趋势和离中趋势是数据分布的两个重要特征,但要全面了解数据分布的特点,还需要知道数据分布的形状是否对称、偏斜的程度以及分布的扁平程度等。偏态和峰度就是对这些分布特征的描述。
一、偏态的度量
偏态是对分布偏斜方向及程度的度量。从前面的内容中我们已经知道,频数分布有对称的,有不对称的即偏态的。在偏态的分布中,又有两种不同的形态,即左偏和右偏。我们可以利用众数、中位数和算术平均数之间的关系判断分布是左偏还是右偏,但要度量分布偏斜的程度,就需要计算偏态系数了。偏态系数的计算方法很多,这里仅介绍两种。
(一) 由算术平均数与众数之间的关系求偏态系数 任何一个频数分布的算术平均数与众数之间的差异情况,与这个频数分布的形态有固定的关系。若频数分布是对称的,则算术平均数等于众数;若频数分布为右偏,则算术平均数大于众数;若频数分布为左偏,则算术平均数小于众数。用其二者的差量除以标准差,即可求得偏态系数,计算公式为:
SK? 当
X?Mo? (3.43)
X?M0时,SK?0,大体表明频数分布是对称的;当X>Mo时,SK>0,表明
Mo,SK<0,表明频数分布
频数分布右偏,偏态系数越大,表明右偏程度越大;若X<
左偏,偏态系数越小,表示左偏程度越大。
(二)动差法 动差又称矩,原是物理学上用以表示力与力臂对重心关系的术语,这个关系和统计学中变量与权数对平均数的关系在性质上很类似,所以统计学也用动差来说明频数分布的性质。 一般地说,取变量的a值为中点,所有变量值与a之差的K次方的平均数称为变量X关于a的K阶动差。用式子表示即为:
?(X?a)KN
23
当a?0时,即变量以原点为中心,上式称为K阶原点动差,用大写英文字母M表示。
一阶原点动差:
M1??XN ,即算术平均数
?X2M2?N ,即平方平均数 二阶原点动差:
?X3M3?N ,等等 三阶原点动差:
当a?X时,即变量以算术平均数为中心,上式称为K阶中心动差,用小写英文字母m表示。
一阶中心动差:
m1??(X?X)?0N
?(X?X)2m2???2N二阶中心动差: ?(X?X)3m3?N三阶中心动差: ,等等
需要注意的是,计算各阶原点动差和各阶中心动差,如果依据的资料是分组资料,则应
用各组的频数或频率加权平均。由于中心动差计算起来比较繁杂,而计算原点动差相对比较简单,通常多从原点动差来推算中心动差。只要展开中心动差的各项,就容易求得它与原点动差的关系。
2m?M?M?0m?M?M111221 3m?M?3MM?2M3211 324m?M?4MM?6MM?3M431211,等等。 4采用动差法计算偏态系数是用变量的三阶中心动差m3与?进行对比,计算公式为:
3??
m3?3 (3.44)
当分布对称时,变量的三阶中心动差m3由于离差三次方后正负相互抵消而取得0值,则??0;当分布不对称时,正负离差不能抵消,就形成正的或负的三阶中心动差m3。当m3为正值时,表示正偏离差值比负偏离差值要大,可以判断为正偏或右偏;反之,当m3为负
24
值时,表示负偏离差值比正偏离差值要大,可以判断为负偏或左偏。
m3越大,表示偏斜的
3程度就越大。由于三阶中心动差m3含有计量单位,为消除计量单位的影响,就用?去除m3,使其转化为相对数。同样的,?的绝对值越大,表示偏斜的程度就越大。3.12
表3.12 某地区农民家庭人均收入数据偏态计算表
注:表中
Kpi为各组户数在总户数中所占比重,即频率。
??xipi?i?1k根据表4.5.1数据计算得:
x??xii?1fi
?fi?1ki1596(元)
2k??
?(xi?1ki?x)fi?i?fi?1?(xi?1ki?x)2pi?305.26(元)
m3??(xi?x)i?1k3nfi
?fi?1??(xi?x)3pi?i?1ik18838272
m3?18838272?0.662??33(305.26)?将计算结果代入(4.5.1)式得:
从计算结果可以看出,偏态系数为正值,而且数值较大,说明该地区农民家庭人均收入的分
布为右偏分布,即人均收入较少的家庭占据多数,而人均收入较高的家庭则占少数,而且偏斜的程度较大。
二、峰度的度量
峰度是用来衡量分布的集中程度或分布曲线的尖峭程度的指标。计算公式如下:
??
m4?4?3 (3.45)
分布曲线的尖峭程度与偶数阶中心动差的数值大小有直接的关系,
m2是方差,于是就
25