生物统计学复习提纲(2008)
第1章 统计学的基本概念
总体:根据研究目的确定的同质研究对象的全体(集合)。 样本:从总体中随机抽取的部分观察单位。
根据观察数据之间有无缝隙(gap),常将数据分类为离散型变量(有缝隙)与连续型变量(无缝隙)两大类。
参数:总体的统计指标,如总体均数、标准差,采用希腊字母分别记为μ、σ。固定的常数
统计量:样本的统计指标,如样本均数、标准差,采用拉丁字母分别记为 X 、 S ,为参数附近波动的随机变量。
第2章 统计描述
①集中趋势(central tendency): 变量值集中位置,即平均水平指标。常用描述集中趋势的统计量有:
1. 算术均数(arithmetic mean),简称均数 (mean)
2. 几何均数(geometric mean),适用条件:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如增长速度、抗体滴度资料
3. 中位数 (median),反映一批观察值在位次上的平均水平。 4. 众数(mode),适用于大样本;较粗糙。 5. 调和均数(harmonic mean),反映变量不同阶段的平均增长率或平均规模。 几种平均数之间的关系
算术平均数 > 几何平均数 > 调和平均数
②离散趋势(tendency of dispersion): 变量值围绕集中位置的分布情况,即个体观察值的变异程度。常用的变异指标有:
1.极差(Range)(全距)。
2.百分位数与四分位数间距Percentile and Quartile range。 上面两个指标没有考虑到每个观察值的变异。
3.方差Variance: 也称均方差(mean square deviation),观察值的离均差平方和的均值。总体和样本的方差分别记为σ2,S2。
(X?X)?X???X?n样本方差S?∑=n?1n?1
4.标准差Standard Deviation: 方差的正平方根;其单位与原变量X的单位相同。总体和样本的方差分别记为σ,S。
22225.变异系数 Coefficient of Variation:CV?Sx。
6. 标准误(standard error, SE): 样本均数的标准差,记为Sx。可用于衡量抽样误差的大小。样本标准误与总体标准差σ有如下关系:Sx?σ/n
描述一组数值变量资料的分布特征时,对于正态分布,应选用算术平均数和标准差,对于偏态分布应选用中位数和四分位数间距
数据标准化的方法是把原始观测值(亦称得分,score)和均值之差除以标准差;得到的度量称为标准得分(standard score,又称为z-score)。
z?score?x?xS
例:假定两个水平类似的班级(一班和二班)上同一门课,但是由于两个任课老师的评分标准不同,使得两个班成绩的均值和标准差都不一样。 分数的均值 标准差 一班 78.53 9.43 二班 70.19 7.00
那么得到90分的一班的张颖是不是比得到82分的二班的刘疏成绩更好呢? 张颖的标准得分为 (90-78.53)/9.43=1.22 刘疏的标准得分为 (82-70.19)/ 7.00=1.69
第3章 常见的概率分布
一、二项分布
若一个随机变量X的可能取值是k= 0,1,…,n,且相应的取值的概率为: P(X=k)= Cnk?k(1??)n?k 则称此随机变量X服从以n、?为参数的二项分布,记为X~B(n,?)。
二、泊松分布
当二项分布中n很大,π很小时,二项分布就变成为Poisson分布,所以Poisson分布实际上是二项分布的极限分布。
??x e?P{X?x}?x?0,1,2,? x! ?为大于0的常数,X服从以?为
参数的Poisson分布 X~P(?)
三、正态分布
若连续型随机变量x的概率分布密度函数为
f(x)?1?(x??)2?22?2?e
其中μ为平均数,σ2为方差,则称随机变量x服从正态分布(normal distribution),记为x~N(μ,σ2)。 正态分布具有以下几个重要特征:
(1)图形呈钟型、中间高、两头低、左右对称
(2)图形最高处对应于X轴的值就是均数(位置参数) (3)标准差决定曲线的形状(形状参数) (4)曲线下面积为1
(5)是一个正态分布簇,经u变换可转换为标准正态分布
标准正态分布
将一般的N(μ,σ2)转换为μ=0,σ2=1的正态分布。我们称μ=0,σ2=1的正态分布为标准正态分布(standard normal distribution),记为N(0,1)。
正态曲线下面积分布规律 标准正态分布 正态分布 面积或概率 -1~1 μ±σ 68.27% -1.96~1.96 μ±1.96σ 95.00% -2.58~2.58 μ±2.58σ 99.00%
不论总体的分布形式如何,只要样本含量n足够大时,样本均数的分布就近似正态分布,此规律称为中心极限定理。
四、χ2分布(chi-square distribution)
假设从标准正态总体N(0,1)中抽取k个独立样本,则Z1?Z2?...?Zk的分布称自由度为υ=k-1的χ2分布。
222χ2?Z1?Z2...?Zk?222k?(i?1xi?μσ)2
?(x??)/?x五、t 分布(t-distribution):
若x~N(μ,σ2), 则x~N(μ,σ2/n)。将随机变量x标准化得:u,
则u~N(0,1)。当总体标准差σ未知时,以样本标准差S代替σ所得到的统计量(x??)/Sx记为t。在计算Sx时,采用S来代替σ,则t变量不再服从标准正态分布,而是服从t分布。
t分布与标准正态分布比较,中心位置不变,但分布曲线峰低,两侧较伸展。
六、F 分布(F distribution):
2令?(?1)和?(?2)分别为服从自由度为?1和?2的独立变量的卡方分布,
2则称F??(?1)?1?(?2)?222服从分子自由度为?1和分母自由度为?2的F分布,记为F~
F(?1,?2)。
第四章 简单统计推断
统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假设检验(test of hypothesis)和参数估计(parametric estimation)。
区间估计:获得一个置信区间(confidence interval, CI)--由样本数据估计得到的100(1??)%可能包含未知总体参数的一个范围值。
95%可信区间的含义:按这种方法构建的可信区间,理论上平均每100次,有95次可以正确估计到总体参数。 例:σ已知时, 总体均数双侧100(1-α)%置信区间为: X?Z?/2?X 。Z0.05/2=1.96。 例:某市一次大规模12岁男孩中生长发育调查中, 测得身高的均数为143.05cm, 标准差为0.55cm, 则该市12岁男孩身高均数的95%置信区间为
(143.05?1.96?0.55,143.05?1.96?0.55)?(141.97,144.13)99%置信区间为 (143.05 - 2.58×0.55, 143.05 + 2.58×0.55)= (141.63,144.47) s未知,总体均数μ的100(1-a)%置信区间为x?tα/2,vS/n。
当样本含量较大,尽管总体方差s未知,仍可采用Z分布进行近似计算。
一、总体均数的假设检验; 假设检验的基本步骤:
首先,要提出一个原假设;
如两个独立样本的t检验: 无效假设H0:μ1 = μ2与备择假设HA:μ1 ≠ μ2(双尾检验);或无效假设H0:μ1 = μ2与备择假设μ1 >μ2或μ1 < μ2(单尾检验)。
第二,确定检验统计量(如t值); 第三,确定显著性水平;
第四,根据数据计算检验统计量的实现值(t-值)和根据这个实现值计算p-值。
二、假设检验的两类错误
I 型错误(弃真):拒绝实际正确的H0,I型错误的概率记为α。(1-α)即置信度。
II型错误(纳伪): 不拒绝实际不正确的H0,II型错误的概率记为β。(1-β)即把握度(或检验效能)。
三、正态总体均值检验的类型
? 根据一个样本对其总体均值大小进行检验,如妇女身高的检验 One-Sample T Test
? 根据来自两个总体的独立样本对其总体均值的检验,如两个班平均成绩的检验。
Indepent Two-Sample T Test
两总体方差相等时,看上面一行的结果。否则,看下面一行的t检验输出。因为总体方差相同时使用的检验统计量与方差不同时使用的不一样。