医学统计学基础(6)

2019-08-29 00:17

医学统计学

第四讲：总体均数的估计和假设检验医学统计学的最基本问题是研究总体与样本的关系。总体与样本的关系，可从两方面研究：

（1）由已知的总体，研究样本的分布规律，即由总体到样本的

研究过程；

（2）由样本如何去推断未知的总体，属于从样本到总体的研究

过程。

1、从一个正态总体中抽取的样本统计量分布

生物学中遇到最多的是正态总体。对于正态总体，可以用数学推演的方法，得出严格的样本统计量的抽样分布，有了严格的样本分布规律，就可以由样本来推断总体了。标准差已知时的样本平均数的分布——u分布

平均数为?，标准差为?的正态总体中，独立随机的抽取含量为n的样本，则：

?x?? ?x??n

样本平均数是一服从正态分布的随机变量，记为X。将平均数标准化，则：

u?x???n

其中的分母称为平均数的标准误差（standard error of mean）。如果变量是正态的或近似正态的，则标准化的变量服从或近似地服从N（0，1）分布。

医学统计学

1、标准差已知时的样本平均数的分布——t分布 (t-distribution) 若上式中的?是未知的，可用样本标准差代替总体标准差，标准化变量并不服从正态分布，而服从具有n-1自由度的t分布。

t?x??Sn

t分布也是一种对称分布，它只有一个参数，即自由度（degree of freedom）t 分布与标准正态分布相比有以下特征：（1）二者都是单峰分布，以0为中心，左右两侧对称。

（2）t分布的峰部较矮而尾部翘得较高，说明远側t 值的个数相对较多，即尾部面积（概率P）较大。

自由度越小这种情况越明显。?逐渐增大时，t分布逐渐逼近标准正态分布；当 ?=? 时，t分布就完全成为标准正态分布了。 2、统计推断

统计推断是讨论如何通过样本去推断总体。由样本推断总体是以各种样本统计量的抽样分布为基础的。对总体做统计推断（statistical inference ）, 可以通过两条途径进行。

一是通过样本统计量估计总体参数；二是首先对所估计的总体提出一个假设，例如假设这个总体的平均数? 等于某个值? 0 ，然后，通过样本数据去推断这个假设是否可以接受，如果可以接受，样本很可能抽自这个总体；否则很可能不是抽自这个总体。前一种途径称为总体参数估计（estimation of population parameter）,后一种途径称为统计假设检验（statistical test of hypothesis ）。这两种不同的统计分析方法

医学统计学

在实际工作中可互相参照使用。

1、总体均数的估计——区间估计（internal estimation）即按一定的概率估计总体均数在哪个范围。可根据资料的条件选用不同的方法。（1）?未知时。一般用t分布的原理作区间估计。根据

P(?t?,??t ? t?,?)?1?? (1-? 为可信度)得 P(-t?,??x??s/n?t?,?)?1?? 于是得可信度为1-? 时，计算总体均数可信区间的通式为：

习惯上，常取1-? =0.95，即95%可信区间；或取1-? =0.99，即99%

X?t?,?(可信区间。

sn)??? X ? t?,?(sn)例题1、对某人群随机抽取20人，用某批号的结核菌素作皮试，平均侵润直径为10.9mm，标准差为3.86mm。问这批结核菌素在该人群中使用时，皮试的平均侵润直径的95%可信区间是多少？本例，n=20, ?=n-1=20-1=19, ?=0.05（双側）查附表，得t0.05,19=2.093

(10.9?2.093?3.8620 , 10.9 ?2.093?3.8620) ? (9.1 , 12.7) 所以，该人群皮试的平均侵润直径的95%可信区间为9.1~12.7mm 。

医学统计学

（2）?已知或样本例数n足够大时，按正态分布原理作区间估计。

?已知时 (X-u???nsn , X ?u??, X ?u? ??nsn)? 未知但n大 (X - u??)

例题2 由某地成年男子中抽得144人的样本，求得红细胞数的均数为5.38?1012/ L, 标准差为0.44?1012/ L, 试估计该地成年男子红细胞均数的95%可信区间。

本例 n?144, x?5.38, s?0.44, ??0.05, 由于n较大可取u0.05?1.96 (5.38-1.96?0.44144 , 5.38 ? 1.96?0.44144)?(5.31 , 5.45)该地成年男子红细胞均数的95%可信区间为(5.31, 5.45)。

可信区间的涵义意思是从总体中作随机抽样，每个样本可以算出一个可信区间，如95%可信区间，意味着100次抽样，算得100个可信区间，平均有95个可信区间包括总体均数（估计正确），只有5个可信区间不包括总体均数（估计错误）。5%是小概率事件，实际发生的可能性小，因此，在实际应用中就认为总体均数在算得的可信区间内, 这种估计方法会冒5%犯错的风险。

可信区间的两个要素一是准确度，反映在可信度1-?的大小，即区间包含总体均数的概率的大小，当然愈接近1愈好；二是精度，反映在区间的长度，当然长度愈小愈好。在样本例数确定的情况下，二者是矛盾的。一般情况下，在可信度确定的情况下，增加样本例数，

医学统计学

可减少区间长度，提高精度。

共10页:

医学统计学基础(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档