样本的自由度为什么是n-1?
新编统计学教程,袁卫等,经济科学出版社1999。P64
总体方差的计算公式,σ2表示总体方差,X表示总体均值,也可用μ表示。样本方差的计算公式,S2表示样本方差,x是样本均值,n表示样本容量,n-1称为自由度(Degree of Freedom)。
为什么样本方差S2的n个离差的平方和不除以n反而要除以n-1呢?也就是样本方差的自由度为什么取n-l呢?这可以从两个方面理解或加以说明。
首先,自由度是不受任何约束,可以自由变动的变量的个数。是反映分布或数据差异信息的个数,即(xi-x)误差的个数。例如,当n=1时,即xi只有一个数值时,由于xl=x,(xl-x)=0,它说明数据与均值没有差异,即表示差异的信息个数为1-l=0;当n=2时,x就是xl和x2的中值,则(xl-x)和(x2-x)的绝对值相等,只是符号相反。这两个误差只表示一个误差。即xl和x2与x相差|xl-x|,即差异的个数为2-1=1;当n=3时,假设xl =1,x2=2,x3=6,则x=3。这时,表面看来误差有3个,即
(1-3)=-2,(2-3)=-1,6-3=3
但实际上告诉给我们的误差信息只有2个,因为数据比均值小的误差绝对值和数据比均值大的误差绝对值是相等的。只要我们知道其中两个误差信息就等于知道了第三个误差。如我们知道一个数据比均值小2,一个数据比均值小1,则我们必知第三个数据比均值大3。所以当n=3时,误差的信息个数只有3-1=2;当n=4,n=5,?时,其数据与样本均值的误差信息都要少一个,即n-1。这也就是为什么要用n-l作为方差的分母,即分子∑(xi-x)2只有n-1个对我们有用的误差信息,所以用n-1作分母才是真正的平均。
其次,我们还可以将自由度n-1理解为n个数据中在样本均值x确定后只有n-1个数据可以自由取值,而第n个一定不能自由取值,这也正是自由度的字面解释。例如xl =1,x2=2,x3=6,则有x=3。当x=3确定后,在xl ,x2,x3中有两个数据可以随意取值,如x1=-100,x2=200,则x3不能随意自由地取值,而只能取
=n×x-xl-x2=3×3-(-100)-(200)=-91 当n=4,n=5,?时,道理都是一样的。
以上是对自由度的两种直观解释。实际上我们还可以从离差平方和上来判断,即∑(-x)2中第一项xi 的取值有n个,而第二项均值x是xl ,x2?xn的一个线性组合,那么就应从自由取值的n个数中减去1个线性组合。如果后一项是xl ,x2?xn的两个线性组合,就从n中减去2个,即自由度取n-2。例如在计算回?i)2=∑(yi-a-bxi)2,第一项有n个数据时,第二项y?i=a+bxi是由两个归方程中计算回归标准误差时,∑(yi-y?i=a+bxi+cxi2则∑(yi-y?i)2的自由线性回归系数a和b决定,则分母应该取(n-2),即自由度为(n-2)。如果y度应该取(n-3)。
?(x?X)2?(x?X)2从结果看,是总体方差的无偏、一致、有效估计量(通俗地说,是最准确、最稳定的),n?1n则不是
p149自由度是不受任何约束,可以自由变动的变量的个数。一共有n个样本,有n个自由度。用样本方差S2估计方差σ2。自由度本应为n,但总体均值也未知,用样本均值去估计之,这使中的n个变量值之间产生了一个约束条件?ni?1?xi?x?0,用掉了一个自由度,故只剩下n-1个自由度。
?一个例子:
用刀剖柚子,在北极点割3刀,得6个角。这6个角可视为3对。6个角的平均角度一定是60度。其中半边3个角中,只会有2个可以自由选择,一旦2个数值确定第3个角也会唯一地确定。在总和已知的情况下,切分角的个数比能够自由切分的个数大1。
概率分布
重要的离散型概率分布
1二点分布
也叫0-1分布、伯努利分布、伯努利试验
x?1?pf(x)?? (p+q=1) 记作 X~(0,1) x?0q?E(X)=p Var(X)=pq
2二项分布(binomial distribution)
二项试验(Bernoulli experiment) 试验由连续n个相同的子试验组成 每次子试验都只有2种可能结果 二种结果的概率可表示为p和q(q=1-p) 子实验是相互独立的
进行n重Bernoulli experiment,得到二项分布 概率分布为f(x)=Cnmpmqn-m m=0,1,2,…n 记作 X~B(n,p)
P=0.5时,分布是对称的,否则不对称,但n越来越大时,不对称性逐渐不明显
E(X)=np Var(X)=npq
【例1】某保险公司有2500个同龄同社会阶层的人参加了寿命保险,已知这批人年死亡率0.002,每人交保险费¥12,如果死亡获赔¥2000。问:⑴保险公司亏本的概率?⑵保险公司获利不少于¥10000的概率? 解:⑴X>15时(12*2500=15*2000),保险公司亏本 ? P(X>15)=1-P(X≤15)
? =1-∑C2500m(0.002)m(1-0.002)2500-m ? =0.000069 m=0 ~15 ? ⑵把问题化为求死亡人数的概率 ? 12*2500-2000X≥10000→X≤10
? P(X≤10)=∑C2500m(0.002)m(1-0.002)2500-m ? =0. 9863 m=0 ~10 【例2】有若干台机器独立工作,每台机器发生故障的概率为0.01,且一旦发生故障必须专门安排一人进行维修,求在下列情况下的概率:⑴一人负责15台;⑵三人负责80台。
解:⑴X表示同一时刻机器发生故障的台数,那么,X~B(n,p),n=15, p=0.01,即X~B(15,0.01)
mP(X>1)=1-P(X≤1)= 1-?C15(0.01)m(1?0.01)15?m
m?01 =1-1*0.010*0.9915+15*0.011*0.9914 =1-(0.86+0.13)=0.01
⑵X表示80台机器中同一时刻发生故障的台数,则X~B(n,p),n=80, p=0.01,即X~B(80,0.01)。只有当X≥4时,机器出现故障而不能得到及时维修,其概率为:
mP(X>≥4)= ?C80(0.01)m(1?0.01)80?m=0.0091
m?480【例3】一个实例:泰康保险的“非典专项险”
100博50000(住院每天100元,最多100天,另有2000元“抗非典慰问金”,死亡赔50000)。条件:获得“非典”或因此死亡 需要考虑的问题:患病概率,死亡率,住院天数,宣传费用
设:患病概率2000/1000万=万分之二,平均住院天数50天,2000人患病中死亡80人(死亡概率80/1000万),宣传费用10万 每患病一人,赔偿2000+100*50=7000 死亡一人,2000+100*50+50000=57000 卖掉1份给推销员20,泰康保险得80 卖掉多少份会保本?
患病概率*患病赔偿额=2*7000/10000=1.4元 死亡概率*死亡赔偿额=80/1000万*57000=0.456元 则每份的赔偿期望为1.4+0.456=2元,赚78元
患病概率2/10000,每人交100,患病则获赔7000,现有5000人买了保险,求赔本概率。
【例3】生日问题(引自约翰·黑格《机会的数学原理》吉林人民出版社2001年版)
有一群人,总数为N,为了使其中至少有两个人生日相同的概率大于二分之一, N至少是多少?这个问题与这群人是如何选择的有关。假如有一群双生子在接受心理试验,你闯进去把这群人作为调查对象,你会发现有两个以上的人生日相同的概率极高。在本题中,我们假设这群人是随机选择的,每个人的生日是一年中的任何一天的概率相同。
有很多因素会影响我们的结论。夏天出生的人比冬天出生的人多。闰年的2月有29天。如果把这些因素都考虑进去,问题会变得非常复杂。数学家常用的策略是尽量简化问题。我们首先考虑最简单的情况:假设一年只有365天,不考虑闰年的存在,而且每天产生的人一样多。在我们解决这个比较简单的问题以后,再把其它的因素考虑进去。
我们先计算任何两个人的生日都不同的概率。算出这个概率之后,只要用1减去这个概率就得到至少有两个人生日相同的概率。
当N=2时,这群人只包括两个人。第二个人的生日是365天中的一天,为了使第二个人的生日与第一个人不同,他的生日可以是364天中的任何一天。因此,这个两个人的生日不同的概率是364/365。
当N=3时,前两个人的生日不同的概率是364/365。为了使第三个人的生日与前两个人不同,他的生日可以是363天中的一天。因此,这三个人的生日各不相同的概率是 (364/365)×(363/365)
类似地,当N=4时,这四个人的生日各不相同的概率是 (364/365) ×(363/365) ×(362/365) 当N=5时,这五个人的生日各不相同的概率是
(364/365) ×(363/365) ×(362/365) ×(361/365)
为了得到N=6、7时的结果,只需把这个乘以360/365,359/365,以此类推。
为了便于表达,我们用一个简单的表达式(364)4来表示364×363×362×361。这样,N=5时的结果就可以表示为 (364)4/3654