表4-3 畸形仔猪数统计分布
每窝畸形数k 0 1 3 3 ≥4 合计 窝 数 f 120 62 15 2 1 200 根据波松分布的平均数与方差相等这一特征,若畸形仔猪数服从波松分布,则由观察数据计算的平均数和方差就近于相等。样本均数x和方差S计算结果如下: x=Σfk/n=(120×0+62×1+15×2+2×3+1×4)/200=0.51-
s22
fk2?(?fk)2/n(120?02?62?12?15?22?2?32?1?42?1022)/200????0.52
n?1200?1x=0.51,S2=0.52,这两个数是相当接近的, 因此可以认为畸形仔猪数服从波松分布。
λ是波松分布所依赖的唯一参数。λ值愈小分布愈偏倚,随着λ的增大,分布趋于对称(如图4-11所示)。当λ=20时分布接近于正态分布;当λ=50时,可以认为波松分布呈正态分布。所以在实际工作中,当λ≥20时就可以用正态分布来近似地处理波松分布的问题。
图4—11 不同λ的波松分布
二、波松分布的概率计算
由(4-23)式可知,波松分布的概率计算,依赖于参数λ的确定,只要参数λ确定了,把k=0,1,2,?代入(4-23)式即可求得各项的概率。 但是在大多数服从波松分布的实例中,分布参数λ往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为λ的估计值,将其代替(4-23)式中的λ,计算出k=0,1,2,?时的各项概率。
如【例4.13】中已判断畸形仔猪数服从波松分布,并已算出样本平均数x=0.51。将0.51代替公式(4-23)中的λ得:
0.51k?0.51 (k=0,1,2,?) P(x?k)?ek! 因为e-0.51=1.6653,所以畸形仔猪数各项的概率为:
P(x=0)=0.51/(0!×1.6653)=0.6005 P(x=1)=0.51/(1!×1.6653)=0.3063 P(x=2)=0.51/(2!×1.6653)=0.0781 P(x=3)=0.51/(3!×1.6653)=0.0133 P(x=4)=0.51/(4!×1.6653)=0.0017
43210
47
P(x?4)?1??p(x?k)?1?0.9999?0.0001
k?04把上面各项概率乘以总观察窝数(N=200)即得各项按波松分布的理论窝数。 波松分布与相应的频率分布列于表4—7中。
表4—4 畸形仔猪数的波松分布
每窝畸形数 k 0 1 2 3 ≥4 合计 窝 数 120 62 15 2 1 200 频 率 0.6000 0.3100 0.0750 0.0100 0.0050 1.00 概 率 0.6005 0.3063 0.0781 0.0133 0.0018 1.00 理论窝数 120.12 61.26 15.62 2.66 0.34 200 将实际计算得的频率与根据λ=0.51的泊松分布计算的概率相比较,发现畸形仔猪的频率分布与λ=0.51的波松分布是吻合得很好的。这进一步说明了畸形仔猪数是服从波松分布的。
【例4.14】 为监测饮用水的污染情况, 现检验某社区每毫升饮用水中细菌数, 共得400个记录如下:
1ml水中细菌数 0 1 2 ≥3 合 计
次数f 243 120 31 6 400 试分析饮用水中细菌数的分布是否服从波松分布。若服从,按波松分布计算每毫升水中细菌数的概率及理论次数并将次数分布与波松分布作直观比较。
经计算得每毫升水中平均细菌数x=0.500,方差S=0.496。两者很接近, 故可认为每毫升水中细菌数服从波松分布。以x=0.500代替(4-23)式中的λ,得
2
0.5k?0.5P(x?k)?e (k=0,1,2?)
k!计算结果如表4—5所示。
表4—5 细菌数的波松分布 1ml水中细菌数 实际次数 频 率 概 率 理论次数
0 243 0.6075 0.6065 242.60
1 120 0.3000 0.3033 121.32
2 31 0.0775 0.0758 30.32
≥3 6 0.0150 0.0144 5.76
合 计 400 1.00 1.00 400
可见细菌数的频率分布与λ=0.5的波松分布是相当吻合的,进一步说明用波松分布描述单位容积(或面积)中细菌数的分布是适宜的。
应当注意,二项分布的应用条件也是波松分布的应用条件。比如二项分布要求n 次试验是相互独立的,这也是波松分布的要求。然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合波松分布的应用条件。对于在单位时间、单位面积或单位容积内,所观察的事物由于某些原因分布不随机时,如细菌在牛奶中成集落存在时,亦不呈波松分布。
前面讨论的三个重要的概率分布中,前一个属连续型随机变量的概率分布,后两个属
48
离散型随机变量的概率分布。三者间的关系如下:
对于二项分布,在n→∞,p→0,且n p =λ(较小常数)情况下,二项分布趋于波松布。
在这种场合,波松分布中的参数λ用二项分布的n p代之;在n→∞, p→0.5时,二项分布趋于正态分布。在这种场合,正态分布中的μ、σ用二项分布的n p、n p q代之。在实际计算中,当p<0.1且n很大时,二项分布可由波松分布近似;当p>0.1且n很大时,二项分布可由正态分布近似。
对于波松分布,当λ→∞时,波松分布以正态分布为极限。在实际计算中,当λ≥20(也有人认为λ≥6)时,用波松分布中的λ代替正态分布中的μ及σ,即可由后者对前者进行近似计算。
2
2
第六节 样本平均数的抽样分布
研究总体与从中抽取的样本之间的关系是统计学的中心内容。对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究抽样分布(sampling distribution)的问题; 二是从样本到总体,这就是统计推断(statistical inference)问题。 统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,须对样本的抽样分布有所了解。
我们知道,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量(如x,S)也将随样本的不同而有所不同,因而样本统计量也是随机变量, 也有其概率分布。我们把统计量的概率分布称为抽样分布。本节仅就样本平均数的抽样分布加以讨论。
一、样本平均数抽样分布
由总体随机抽样(random sampling)的方法可分为有返置抽样和不返置抽样两种。 前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。
设有一个总体,总体平均数为μ,方差为σ,总体中各变数为x, 将此总体称为原总体。现从这个总体中随机抽取含量为n的样本,样本平均数记为x。可以设想,从原总体中可抽出很多甚至无穷多个含量为n的样本。由这些样本算得的平均数有大有小,不尽相同, 与原总体平均数μ相比往往表现出不同程度的差异。这种差异是由随机抽样造成的, 称为抽样误差(sampling error)。显然,样本平均数也是一个随机变量,其概率分布叫做样本平均数的抽样分布。由样本平均数x构成的总体称为样本平均数的抽样总体,其平均数和标准差分别记为?x和?x。?x是样本平均数抽样总体的标准差,简称标准误(standard error),它表示平均数抽样误差的大小。统计学上已证明x总体的两个参数与x 总体的两个参数有如下关系:
2
49
?x=μ,?x?? (4—24)
n 为了验证这个结论及了解平均数抽样总体与原总体概率分布间的关系,我们进行一个模拟抽样试验。
设有一个N=4的有限总体,变数为2、3、3、4。根据μ=Σx/N和σ=Σ(x-μ)/N求得该总体的μ、σ、σ为:
2
μ=3, σ=1/2, σ=1 =0.707
2n 从有限总体作返置随机抽样,所有可能的样本数为N个,其中n为样本含量。以上述
2
2
2
总体而论,如果从中抽取n=2的样本,共可得4=16个样本;如果样本含量n为4,则一共可抽得4=256个样本。分别求这些样本的平均数x,其次数分布如表4—6所示。
根据表4—6,在n=2的试验中,样本平均数抽样总体的平均数、方差与标准差分别为: ?x?4
2
?fx/Nn?48.0/16?3??
16222nf(x??)fx?(fx)/N148?482/16???x2 ?? ??xNnNn2=4/16=1/4=(1/2)/2=?/n
2 ?x??x?1/4?12/2??n
表4—6 N=4, n=2和n=4时x的次数分布
x
2.0 2.5 3.0 3.5 4.0 Σ Nn=42=16
fx f
1
4 6 4 1 16
2.0 10.0 18.0 14.0 4.0 48.0
fx2
4.00 25.00 54.00 49.00 16.00 148.00
x
2.00 2.25 2.50 2.75 3.00 3.25 3.50 3.75 4.00 Σ
f 1 8 28 56 70 56 28 8 1 256
Nn=44=256
fx
2.00 18.00 70.00 154.00 210.00 182.00 98.00 30.00 4.00 768.00
fx2
4.0000 40.5000 175.0000 423.5000 630.0000 591.5000 343.0000 112.5000 16.0000 2336.0000
同理,可得n=4时:
2?x?768/256?3?? ?x?32/256?1/8?(1/2)/4??2/n
?x?18?124??n
这就验证了?x=μ,?x??/n 的正确性。
若将表4—6中两个样本平均数的抽样总体作次数分布图,则如图4-12所示。 由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小(n=2, n=4),样本平均数的分布却趋向于正态分布形式。随着样本含量n的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。比较图4—12两个分
50
布,在n由2增到4时,这种趋势表现得相当明显。当n>30时,x的分布就近似正态分布了。x变量与x变量概率分布间的关系可由下列两个定理说明:
1. 若随机变量x服从正态分布N(μ,σ),x1,x2,?, xn是由x总体得来的随机样本,
2
则统计量x=Σx/n的概率分布也是正态分布, 且有?x=μ,?x??/n, 即x服从正态分布N(μ,σ/n)。
2. 若随机变量x服从平均数是μ,方差是σ的分布(不是正态分布);x1,x2,?, xn2
2
是由此总体得来的随机样本,则统计量x=Σx/n的概率分布,当n相当大时逼近正态分布N(μ,σ/n)。这就是中心极限定理。
2
图4-12 平均数x的抽样分布 上述两个结果保证了样本平均数的抽样分布服从或者逼近正态分布。
中心极限定理告诉我们:不论x变量是连续型还是离散型,也无论x服从何种分布,一般只要n>30,就可认为x的分布是正态的。若x的分布不很偏倚,在n>20时,x的分布就近似于正态分布了。这就是为什么正态分布较之其它分布应用更为广泛的原因。
二、标 准 误
标准误(平均数抽样总体的标准差) ?x??/n 的大小反映样本平均数x的抽样误差的大小,即精确性的高低。标准误大,说明各样本平均数x间差异程度大,样本平均数的精确性低。反之,?x小,说明x间的差异程度小,样本平均数的精确性高。?x的大小与原总体的标准差σ成正比,与样本含量n的平方根成反比。从某特定总体抽样,因为σ是一常数,所以只有增大样本含量才能降低样本平均数x的抽样误差。
在实际工作中,总体标准差σ往往是未知的,因而无法求得?x。此时,可用样本标准差S估计σ。于是,以Sn 估计?x。记Sn 为Sx,称作样本标准误或均数标准误。
2样本标准误Sx是平均数抽样误差的估计值。若样本中各观测值为x1,x2,?, xn,则
Sx?Sn??(x?x)2n(n?1)??x2?(?x)n(n?1)/n (4-25)
应当注意,样本标准差与样本标准误是既有联系又有区别的两个统计量,(4—25) 式已表明了二者的联系。二者的区别在于:样本标准差S是反映样本中各观测值x1,x2,?, 样本标准误是样xn变异程度大小的一个指标,它的大小说明了x对该样本代表性的强弱。
51