第四章 定量资料的统计描述
【习题解析】
一、思考题
1. 均数、中位数、几何均数三者的相同点是都用于描述定量资料的集中趋势,不同点:①均数用于单峰对称分布,特别是正态分布或近似正态分布的资料;②几何均数用于变量值间呈倍数关系的偏态分布资料,特别是变量经过对数变换后呈正态分布或近似正态分布的资料;③中位数用于不对称分布资料、两端无确切值的资料、分布不明确的资料。
2. 同一资料的标准差不一定小于均数。均数描述的是一组同质定量变量的平均水平,而标准差是描述单峰对称分布资料离散程度最常用的指标。标准差大,表示观察值之间变异大,即一组观察值的分布较分散;标准差小,表示观察值之间变异小,即一组观察值的分布较集中。若标准差远大于均数表明数据离散程度较大,可能为偏态分布,此时应考虑改用其他指标来描述资料的集中趋势。 3. 极差、四分位数间距、标准差、变异系数四者的相同点是都用于描述资料的离散程度。不同点:①极差可用于描述单峰对称分布小样本资料的离散程度,或用于初步了解资料的变异程度;②四分位数间距可用于描述偏态分布资料、两端无确切值或分布不明确资料的离散程度;③标准差用于描述正态分布或近似正态分布资料的离散程度;④变异系数用于比较几组计量单位不同或均数相差悬殊的正态分布资料的离散程度。
4. 正态分布的特征:①正态曲线在横轴上方均数处最高;②正态分布以均数为中心,左右对称;③正态分布有两个参数,即位置参数?和形态参数?;④正态曲线下的面积分布有一定的规律,正态曲线与横轴间的面积恒等于1。曲线下区间(??2.58?,??2.58?)内的面积为95.00%;区间
(??2.58?,??2.58?内的面积为)99.00%。
5.①通过大量调查证实符合正态分布的变量或近似正态分布的变量,可按正态分布曲线下面积分布的规律制定医学参考值范围;服从对数正态分布的变量,可对观察值取对数后按正态分布法算出医学参考值范围的对数值,然后求其反对数即可;②对于经正态性检验不服从正态分布的变量,应采用百分位数法制定医学参考值范围。 二、案例辨析题
统计描述时,常见错误是对定量资料的描述均采用均数、标准差,。正确做法是根据资料分布类型和特点,计算相应的集中趋势指标和离散程度指标。本资料的血清总胆固醇的频数分布图如下:
频数 4-1
图4-1 血清甘油三酯(TG)的频数分布
可见资料呈负偏态分布,不宜使用均数和标准差来描述其集中趋势和离散程度,而应计算中位数和四分位数间距,计算结果为:
??集中趋势指标M??X?150??X?150??/2?(1.76?1.75)/2?1.755 (mmol/L)
????1????2????2?离散程度指标 四分位数间距= P75?P25?2.10?1.34?0.76 (mmol/L)
三、最佳选择题
1. B 2. E 3. B 4. C 5. D 6. E 7. A 8. D 9. D
四、综合分析题 1. 解:输出结果
频数 图4-4 尿总砷的频数分布图
由图4-4可见,该资料集中位置偏向左侧,为正偏态分布,考虑作对数变换。 输出结果
频数
图4-5 尿总砷对数的频数分布图
由图可见lgx分布近似对称,可认为燃煤型砷中毒患者尿总砷含量近似服从对数正态分布。 (2) 燃煤型砷中毒患者尿总砷的含量近似服从对数正态分布,故应计算几何均数。 输出结果
4-2
Descriptive StatisticsNlgxValid N (listwise)176176Minimum-1.99Maximum-.24Mean-1.1831Std.Deviation.39685 结果中的Mean表示尿总砷对数值的均数为-1.1831,求其反对数,得到几何均数
G?0.0656(μg/L)。
2. 解:
(1) 已知健康人的血清TC服从正态分布,故采用正态分布法制定95%的参考值范围。
下限:X?1.96S?4.84?1.96?0.96?2.96(mmol/L)
上限:X?1.96S?4.84?1.96?0.96?6.72(mmol/L)
该市45~55岁健康男性居民的血清总胆固醇的95%参考值范围为2.96 mmol/L~6.72mmol/L。 (2) 45~55岁健康男性居民的血清总胆固醇分布为非标准正态分布,需作标准化变换后,查表确定正态分布曲线下面积。由于是大样本,可用样本均数和样本标准差作为总体均数和总体标准差的点估计值。
X??3.25?4.84Z1?1???1.66
?0.96X??5.25?4.84Z2?2??0.43
?0.96查标准正态分布曲线下的面积表(附表2)得:
) ?(Z1)??(?1.66?0. 0485?(Z2)?1??(?0.43)?1?0.3336?0.6664
D??(Z2)??(Z1)?0.6664?0.0485?0.6179?61.79%
该市45~55岁健康男性居民中,血清总胆固醇在3.25mmol/L~5.25mmol/L范围内的比例为
61.79%。
(3) 作标准化变换
X??3.80?4.84Z????1.08
?0.96查标准正态分布曲线下的面积表(附表2)得:
?(Z)??(?1.08)?0.1401?14.01%
该市45~55岁健康男性居民中,血清总胆固醇低于3.80mmol/L所占的比例为14.01%。
3. 解: 输出结果
4-3
频数 50 60 70 80 90 100 110 120 130 140 150
跟骨硬度指数
图4-8 跟骨硬度指数的频数分布图
由图4-8可见资料呈负偏态分布,因为跟骨硬度指数过高或过低均为异常,故应使用百分位数法,制定双侧95%参考值范围。
输出结果
Statistics
SI
N Percentiles Valid Missing 2.5 97.5 120 0 58.0167 143.6618 即该地区30~35岁健康女性的SI的95%参考值范围为(58.02, 143.66)。
第五章 定性资料的统计描述
【习题解析】
一、思考题
1.①计算相对数应时有足够的观察单位数;②分析时不能以构成比代替率;③计算观察单位数不等的几个率的合计率或平均率时,不能简单地把各组率相加求其平均值而得,而应该分别将分子和分母合计,再求出合计率或平均率;④相对数的比较应注意其可比性,如果内部构成不同,应计算标准化率;⑤样本率或样本构成比的比较应作假设检验。
2. 率是指某现象实际发生数与某时间点或某时间段可能发生该现象的观察单位总数之比,用以说明该现象发生的频率或强度。构成比是指事物内部某一组成部分观察单位数与同一事物各组成部分的观察单位总数之比,以说明事物内部各组成部分所占的比重,不能说明某现象发生的频率或强度大小。两者在实际应用时容易混淆,要注意区别。
3. 如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法计算标准化率;当不知道被标化组的年龄别死亡率,只有年龄别人口数和死亡总数时,可采用间接法。
4. 常用的动态数列分析指标有:绝对增长量、发展速度与增长速度、平均发展速度与平均增长速度。绝对增长量是指事物现象在一定时期增长的绝对值;发展速度与增长速度都是相对比指标,用以说明事物现象在一定时期的速度变化;平均发展速度是指一定时期内各环比发展速度的平均值,
4-4
用以说明事物在一定时期内逐年的平均发展程度;平均增长速度是说明事物在一定时期内逐年的平均增长程度。
5. ①标准化法的目的是通过选择同一参照标准,消除混杂因素的影响,使算得的标准化率具有可比性。但标准化率并不代表真实水平,选择的标准不同,计算出的标准化率也不相同。因此,标准化率仅用于相互间的比较,实际水平应采用未标化率来反映。②样本的标准化率是样本指标,亦存在抽样误差,若要比较其代表的总体标准化率是否相同,需作假设检验。③注意标准化方法的选用。如对死亡率的年龄构成标准化,当已知被标化组的年龄别死亡率时,宜采用直接法计算标准化率。但当被标化组各年龄段人口数太少,年龄别死亡率波动较大时,宜采用间接法。④各年龄组率若出现明显交叉,或呈非平行变化趋势时,则不适合采用标准化法,宜分层比较各年龄组率。此外,对于因其它条件不同,而非内部构成不同引起的不可比性问题,标准化法难以解决。
二、案例辨析题
该结论不正确。因为该医生所计算的指标是构成比,只能说明98例女性生殖器溃疡患者中,3种病原体感染所占的比重,不能说明女性3种病原体感染发生的频率或强度,该医生犯了以构成比代替率的错误。
三、最佳选择题
1. B 2. A 3. D 4. E 5. D 6. D 7. C 8. C 9. B
四、综合分析题 1. 解:
表5-3 经常吸烟与慢性阻塞性肺病(COPD)的关系
分 组 COPD患者 非COPD患者
调查人数 356 479
经常吸烟 是 231 183
否 125 296
经常吸烟率(%)
64.89 38.20
COPD患者的经常吸烟率:231/356×100%=64.89% 非COPD患者经常吸烟率:183/479×100%=38.20% COPD患者的经常吸烟率比非COPD患者高26.69%
231?296比值比(OR)=?2.989
125?183还需进一步对OR作假设检验(见第十一章),若经检验有统计学意义,可以认为经常吸烟与慢性阻塞性肺病(COPD)有一定的关系。 输出结果
分组 * 吸烟情况 CrosstabulationCount吸烟情况不吸烟吸烟296183125231421414Total479356835分组Total非COPD患者COPD患者 4-5