医学统计学
第四讲:总体均数的估计和假设检验 医学统计学的最基本问题是研究总体与样本的关系。 总体与样本的关系,可从两方面研究:
(1) 由已知的总体,研究样本的分布规律,即由总体到样本的
研究过程;
(2) 由样本如何去推断未知的总体,属于从样本到总体的研究
过程。
1、 从一个正态总体中抽取的样本统计量分布
生物学中遇到最多的是正态总体。对于正态总体,可以用数学推演的方法,得出严格的样本统计量的抽样分布,有了严格的样本分布规律,就可以由样本来推断总体了。 标准差已知时的样本平均数的分布——u分布
平均数为?,标准差为?的正态总体中,独立随机的抽取含量为n的样本,则:
?x?? ?x??n
样本平均数是一服从正态分布的随机变量,记为X。 将平均数标准化,则:
u?x???n
其中的分母称为平均数的标准误差(standard error of mean)。如果变量是正态的或近似正态的,则标准化的变量服从或近似地服从N(0,1)分布。
医学统计学
1、标准差已知时的样本平均数的分布——t分布 (t-distribution) 若上式中的?是未知的,可用样本标准差代替总体标准差,标准 化变量并不服从正态分布,而服从具有n-1自由度的t分布。
t?x??Sn
t分布也是一种对称分布,它只有一个参数,即自由度(degree of freedom)t 分布与标准正态分布相比有以下特征: (1)二者都是单峰分布,以0为中心,左右两侧对称。
(2)t分布的峰部较矮而尾部翘得较高,说明远側t 值的个数相对较多,即尾部面积(概率P)较大。
自由度越小这种情况越明显。?逐渐增大时,t分布逐渐逼近标准正态分布;当 ?=? 时,t分布就完全成为标准正态分布了。 2、统计推断
统计推断是讨论如何通过样本去推断总体。由样本推断总体是以各种样本统计量的抽样分布为基础的。 对总体做统计推断(statistical inference ), 可以通过两条途径进行。
一是通过样本统计量估计总体参数;二是首先对所估计的总体提出一个假设,例如假设这个总体的平均数? 等于某个值? 0 ,然后,通过样本数据去推断这个假设是否可以接受,如果可以接受,样本很可能抽自这个总体;否则很可能不是抽自这个总体。前一种途径称为总体参数估计(estimation of population parameter),后一种途径称为统计假设检验(statistical test of hypothesis )。这两种不同的统计分析方法
医学统计学
在实际工作中可互相参照使用。
1、总体均数的估计——区间估计(internal estimation)即按一定的概率估计总体均数在哪个范围。可根据资料的条件选用不同的方法。 (1)?未知时。一般用t分布的原理作区间估计。 根据
P(?t?,??t ? t?,?)?1?? (1-? 为可信度)得 P(-t?,??x??s/n?t?,?)?1?? 于是得可信度为1-? 时,计算总体均数可信区间的通式为:
习惯上,常取1-? =0.95, 即95%可信区间;或取1-? =0.99, 即99%
X?t?,?(可信区间。
sn)??? X ? t?,?(sn)例题1、对某人群随机抽取20人,用某批号的结核菌素作皮试,平均侵润直径为10.9mm,标准差为3.86mm。问这批结核菌素在该人群中使用时,皮试的平均侵润直径的95%可信区间是多少? 本例,n=20, ?=n-1=20-1=19, ?=0.05(双側)查附表,得t0.05,19=2.093
(10.9?2.093?3.8620 , 10.9 ?2.093?3.8620) ? (9.1 , 12.7) 所以,该人群皮试的平均侵润直径的95%可信区间为9.1~12.7mm 。
医学统计学
(2)?已知或样本例数n足够大时,按正态分布原理作区间估计。
?已知时 (X-u???nsn , X ?u??, X ?u? ??nsn)? 未知但n大 (X - u??)
例题2 由某地成年男子中抽得144人的样本,求得红细胞数的均数为5.38?1012/ L, 标准差为0.44?1012/ L, 试估计该地成年男子红细胞均数的95%可信区间。
本例 n?144, x?5.38, s?0.44, ??0.05, 由于n较大可取u0.05?1.96 (5.38-1.96?0.44144 , 5.38 ? 1.96?0.44144)?(5.31 , 5.45)该地成年男子红细胞均数的95%可信区间为(5.31, 5.45)。
可信区间的涵义 意思是从总体中作随机抽样,每个样本可以算出一个可信区间,如95%可信区间,意味着100次抽样,算得100个可信区间,平均有95个可信区间包括总体均数(估计正确),只有5个可信区间不包括总体均数(估计错误)。5%是小概率事件,实际发生的可能性小,因此,在实际应用中就认为总体均数在算得的可信区间内, 这种估计方法会冒5%犯错的风险。
可信区间的两个要素 一是准确度,反映在可信度1-?的大小,即区间包含总体均数的概率的大小,当然愈接近1愈好;二是精度,反映在区间的长度,当然长度愈小愈好。在样本例数确定的情况下,二者是矛盾的。一般情况下,在可信度确定的情况下,增加样本例数,
医学统计学
可减少区间长度,提高精度。