第四章 定量资料的统计描述
该市45~55岁健康男性居民中,血清总胆固醇在3.25mmol/L~5.25mmol/L范围内的比例为61.79%。
(3) 作标准化变换
Z?X????3.80?4.84??1.08
0.96查标准正态分布曲线下的面积表(附表2)得:
?(Z)??(?1.08)?0.1401?14.01%
该市45~55岁健康男性居民中,血清总胆固醇低于3.80mmol/L所占的比例为14.01%。
3. 解: 输出结果
频数
50 60 70 80 90 100 110 120 130 140 150
跟骨硬度指数
图4-8 跟骨硬度指数的频数分布图
由图4-8可见资料呈负偏态分布,因为跟骨硬度指数过高或过低均为异常,故应使用百分位数法,制定双侧95%参考值范围。
输出结果
Statistics
SI N Percentiles Valid Missing 2.5 97.5 120 0 58.0167 143.6618 即该地区30~35岁健康女性的SI的95%参考值范围为(58.02, 143.66)。
第五章 定性资料的统计描述
【习题解析】 一、思考题
1.①计算相对数应时有足够的观察单位数;②分析时不能以构成比代替率;③计算观察单位数不等的几个率的合计率或平均率时,不能简单地把各组率相加求其平均值而得,而应该分别将分子和分母合计,再求出合计率或平均率;④相对数的比较应注意其可比性,如果内部
4-21
第四章 定量资料的统计描述
构成不同,应计算标准化率;⑤样本率或样本构成比的比较应作假设检验。
2. 率是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。构成比是指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比,以说明事物内部各组成部分所占的比重,不能说明某现象发生的频率或强度大小。两者在实际应用时容易混淆,要注意区别。
3. 如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法计算标准化率;当不知道被标化组的年龄别死亡率,只有年龄别人口数和死亡总数时,可采用间接法。
4. 常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。绝对增长量是指事物现象在一定时期增长的绝对值;发展速度与增长速度都是相对比指标,用以说明事物现象在一定时期的速度变化;平均发展速度是指一定时期内各环比发展速度的平均值,用以说明事物在一定时期内逐年的平均发展程度;平均增长速度是说明事物在一定时期内逐年的平均增长程度。
5. ①标准化法的目的是通过选择同一参照标准,消除混杂因素的影响,使算得的标准化率具有可比性。但标准化率并不代表真实水平,选择的标准不同,计算出的标准化率也不相同。因此,标准化率仅用于相互间的比较,实际水平应采用未标化率来反映。②样本的标准化率是样本指标,亦存在抽样误差,若要比较其代表的总体标准化率是否相同,需作假设检验。③注意标准化方法的选用。如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法计算标准化率。但当被标化组各年龄段人口数太少,年龄别死亡率波动较大时,宜采用间接法。④各年龄组率若出现明显交叉,或呈非平行变化趋势时,则不适合采用标准化法,宜分层比较各年龄组率。此外,对于因其它条件不同,而非内部构成不同引起的不可比性问题,标准化法难以解决。
二、案例辨析题
该结论不正确。因为该医生所计算的指标是构成比,只能说明98例女性生殖器溃疡患者中,3种病原体感染所占的比重,不能说明女性3种病原体感染发生的频率或强度,该医生犯了以构成比代替率的错误。
三、最佳选择题
1. B 2. A 3. D 4. E 5. D 6. D 7. C 8. C 9. B
四、综合分析题 1. 解:
表5-3 经常吸烟与慢性阻塞性肺病(COPD)的关系
分 组 COPD患者 非COPD患者
调查人数 356 479
经常吸烟 是 231 183
否 125 296
经常吸烟率(%)
64.89 38.20
COPD患者的经常吸烟率:231/356×100%=64.89% 非COPD患者经常吸烟率:183/479×100%=38.20% COPD患者的经常吸烟率比非COPD患者高26.69%
比值比(OR)=231?296?2.989
125?183 4-22
第四章 定量资料的统计描述
还需进一步对OR作假设检验(见第十一章),若经检验有统计学意义,可以认为经常吸烟与慢性阻塞性肺病(COPD)有一定的关系。 输出结果 分组 * 吸烟情况 CrosstabulationCount吸烟情况分组Total非COPD患者COPD患者不吸烟296125421吸烟183231414Total479356835 Risk Estimate95% Confidence IntervalLowerUpper2.2473.9761.5032.061.513.675Odds Ratio for 分组 (非COPD患者 / COPD患者)For cohort 吸烟情况 = 非经常吸烟For cohort 吸烟情况 = 经常吸烟N of Valid CasesValue2.9891.760.589835
2. 解:
表5-4 某地居民1998~2004年某病死亡率(1/10万)动态变化 年份 1998~ 1999~ 2000~ 2001~ 2002~ 2003~ 2004~ 符号 a0 a1 a2 a3 a4 a5 a6 死亡率 160.5 144.2 130.0 120.2 85.6 69.5 38.5 绝对增长量 累计 — -16.3 -30.5 -40.3 -74.9 -91.0 -122.0 逐年 — -16.3 -14.2 -9.8 -34.6 -16.1 -31.0
发展速度
增长速度
定基比 环比 — 0.90 0.81 0.75 0.53 0.43 0.24 — 0.90 0.90 0.92 0.71 0.81 0.55 定基比 环比 — -0.10 -0.19 -0.25 -0.47 -0.57 -0.76 — -0.10 -0.10 -0.08 -0.29 -0.19 -0.45 该病死亡率的平均发展速度=nan/a0?638.5/160.5?0.79 该病死亡率的平均增长速度=平均发展速度?1=0.79?1=?0.21
3. 解:因为该地男、女性的年龄构成有所不同,为了消除年龄构成的不同对HBsAg阳性率的影响,应先进行标准化再进行比较。根据本题资料,以男、女合计为标准人口,已知被标化组的年龄别阳性率,采用直接法计算标准化阳性率。
表5-5 直接法计算某地不同年龄、性别人群的HBsAg标准化阳性率(%) 年龄组 0~
标准人口数
男性
原阳性率
预期阳性数
原阳性率
女性 预期阳性数
Ni
1081
pi
2.30
Nipi
24.90
4-23
pi
2.32
Nipi
25.09
第四章 定量资料的统计描述
20~ 40~ 60~ 合 计
1473 1546 1408 5508(N)
2.71 6.06 7.52 5.11
39.97 93.63 105.85 264 (?Nipi)
2.72 6.46 8.60 4.86
40.02 99.86 121.04 286(?Nipi)
264?100%?4.79% 5508286?100%?5.19% 女性HBsAg标准化阳性率:p??5508男性HBsAg标准化阳性率:p??可见,经标准化后女性HBsAg阳性率高于男性。 输出结果
Descriptive StatisticsNspsp1sp2Valid N (listwise)4444Sum5508.00264.35286.01 注:将SPSS输出的sp1的和除以sp的和,得男性HBsAg标准化阳性率;sp2的和除以sp的和,得女性HBsAg标准化阳性率。
第六章 总体均数的估计
【习题解析】 一、思考题
1.抽样研究中,由于同质总体中的个体间存在差异,即个体变异,因而从同一总体中随机抽取若干样本,样本均数往往不等于总体均数,且各样本均数之间也存在差异。这种由个体变异产生的、随机抽样引起的样本均数与总体均数间的差异称均数的抽样误差。决定均数抽样误差大小的因素主要为样本含量和标准差。
2.样本均数的抽样分布的特点有:①各样本均数未必等于总体均数;②样本均数之间存在差异;③样本均数服从正态分布;④样本均数的变异范围较原变量的变异范围小;⑤随着样本含量的增加,样本均数的变异范围逐渐缩小。
3.标准差与标准误的区别在于:①计算公式:标准差为S??(X?X)n?12,标准误为
SX?S;②统计学意义:标准差越小,说明个体值相对越集中,均数对数据的代表性越n好;而标准误越小,说明样本均数的分布越集中,样本均数与总体均数的差别越小,抽样误差越小,由样本均数估计总体均数的可靠性越大;③用途:标准差用于描述个体值的变异程度,标准误用于描述均数的抽样误差大小。
标准差与标准误的联系:当样本量n一定时,标准误随标准差的增加而增加,公式为:
SX?Sn。
4.数理统计的中心极限定理:从均数为?,标准差为?的正态总体中进行独立随机抽样,其样本均数服从均数为?,标准差为?/n的正态分布;即使是从非正态总体中进行独立随机抽样,当样本含量逐渐增加(n?50)时,其样本均数的分布逐渐逼近于均数为?,标
4-24
第四章 定量资料的统计描述
准差为?/n的正态分布。?X越大,抽样误差越大,由样本均数估计总体均数的可靠性越小。反之,?X越小,抽样误差越小,由样本均数估计总体均数的可靠性越大。
计算总体均数置信区间的通式为:(X?t?/2,?SX,X?t?/2,?SX);当样本含量较大时,例如n?100,t分布近似标准正态分布,可用Z值代替t值,作为置信区间的近似计算,相应的置信度为(1??)时,总体均数的置信区间为:(X?Z?/2SX,X?Z?/2SX)。 5.置信区间与医学参考值范围的区别见表6-1。
表6-1 均数的置信区间与医学参考值范围的区别 区别 意义
均数的置信区间
按一定的置信度(1??)估计的总体均数所在的区间范围
①?未知:(X?t?/2,?SX,X?t?/2,?SX)
计算 公式
②?未知而n较大100: (X?Z?/2SX,X?Z?/2SX)
③?已知:(X?Z?/2?X,X?Z?/2?X) 用于总体均数的估计或假设检验
医学参考值范围
大多数“正常人”的某项解剖、生理、生化指标的波动范围 ①正态分布法: 双侧95%的参考值范围为(X?1.96S,X?1.96S) ②偏态分布法:
单侧下限95%的参考值范围为?P5 单侧上限95%的参考值范围为?P95 判断观察对象的某项指标正常与否,为临床诊断提供参考
用途
二、案例辨析题
该学生误用医学参考值范围的公式来计算总体均数的95%置信区间,正确计算公式为:
(X?Z?/2SX,X?Z?/2SX),二者的主要区别在于,计算医学参考值范围时应该用“标准
差”,计算置信区间时应该用标准误。根据置信区间的公式算得2005年该市7岁男孩身高的95%置信区间为(122.01,122.99)。
三、最佳选择题
1.C 2.E 3.E 4.A 5.E 6.A 7.E 8.B
四、综合分析题
1.解:由于该样本为小样本,故用公式X?????SX估计总体均数95%置信区间为(8.27, 10.03)mm/h;用公式X?2.58SX估计总体均数99%置信区间为(7.96, 10.34)mm/h。 输出结果
Descriptives
红细胞沉降率
Statistic
Mean
95% Confidence Lower Bound Interval for Mean Upper Bound 5% Trimmed Mean Median Variance
Std. Deviation Minimum Maximum Range
4-25
Std. Error .42563
9.1481 8.2697 10.0266 9.1795 9.4288 4.529 2.12816 5.01 12.68 7.67