医学统计学
(3)、中位数和百分位数的计算
中位数(median, M)是将一组观察值从小到大按顺序排列,位次居中的数值对应的观察值就是中位数。因而全部观察值中,大于和小于中位数的观察值的个数相等。
1) 直接法: 将原始观察值按大小顺序排列:
M?Xn为奇数时,
(n?1)2
??X?X?(n)?n(?1)22? n为偶数时, M? ?2例5.测得5个人的低密度脂蛋白中载体B蛋白的含量(mg/dl)分别为0.84, 2.58, 5.46, 8.58, 9.60 , 求其中位数.
M?X
= X3 = 5.46 mg/dl
例6. 8名新生儿的身长(cm)依此为50,51,52,53,54,54,55,58,求其中位数。
??X?X?(n)?n(?1)22? ?53?54?53.5 M??22(n?1)22)频数表法
Px?L?i(n?x%??fL)fx
医学统计学
例7. 对某地630名50岁~60岁的正常女性检查了血清甘油三脂含量,并制成如
下频数表,试求中位数及第25、75、90百分位数。
甘油三脂mg/dl 频数,f 累计频数 累计频率(%)
(1) (2) (3) (4) 10~ 27 27 4.3 40~ 169 196 31.1 70~ 167 363 57.6 100~ 94 457 72.5 130~ 81 538 85.4 160~ 42 580 92.1 190~ 28 608 96.5 220~ 14 622 98.7 250~ 4 626 99.4 280~ 3 629 99.8 310~ 1 630 100.0 合计 630 ---- ----
630?0.5?196m?70??30?91.4(mg/dl)
167
630?0.25?27p25?40??30?63.2(mg/dl)
169
630?0.75?457p75?130??30?135.7(mg/dl)
81
630?0.90?538p90?160??30?180.7(mg/dl)
42
医学统计学
例8. 某日大气中SO2的日平均浓度(ug/m3)见下表,分别求第25、75、95
百分位数及中位数。 浓度(ug/m3) 天数,f 累计频数 累计频率(%) (1) (2) (3) (4) 5~ 39 39 10.8 50~ 67 106 29.4 75~ 64 170 47.1 100~ 63 233 64.5 125~ 45 278 77.0 150~ 30 308 85.3 175~ 17 325 90.0 200~ 9 334 92.5 225~ 7 341 94.5 6 347 96.1 275~ 5 352 97.5 300~ 3 355 98.3 325~ 6 361 100.0 361 Px?l?i(n?x%??fl)fx
25(361?25%?39)?69.12(?g/m3)67 25P75?125?(361?75%?233)?145.97(?g/m3)45 25P95?250?(361?95%?341)?258.12(?g/m3)6 25P50?100?(361/2?170)?104.17(?g/m3)63
中位数和百分位数的应用:
1.用于描述偏态分布资料的集中位置。反映位次居中的观察值的水平。 2.百分位数是用于描述样本或总体观察值序列在某百分位置水平,最常用的百分位数是中位数。
3.百分位数常用来确定医学参考值范围。
P25?50?医学统计学
第三讲 离散趋势 离散程度的描述
三组同性别、同年龄儿童的体重(kg)如下,分析其集中趋势与离散趋势。 甲组 26 28 30 32 34 X甲=30kg R=8 S=3.16 已组 24 27 30 33 36 X乙=30kg R=12 S=4.74 丙组 26 29 30 31 34 X丙=30kg R=8 S=2.91 哪一组数值的代表性好? (1)极差(range)
一组观察值中,最大值与最小值差,反映个体差异的范围。极差大,说明变异度大,各变量值离均数越远,数据越分散;反之亦然。 (2)四分位数(quartile)间距
可看成是特定的百分位数,用它说明个体差异比极差稳定。
Q=P75–P25
一般来说,样本例数越多,四分位间距越稳定。 (3)方差(variance)与标准差的计算 方差: σ2=?(x??)2/N
2(x?x)?s2?
n?1
由上式可知:方差考虑了总体中每个变量值X与总体均数之差(x??),称为离均差平方和(SS),因此方差近似等于离均差平方和的算数均数,故又称为均方差(MS),由于SS利用了每一个观察值的信息,因而反映一批数据的变异程度优于极差和四分位间距。
(4) 标准差(standard deviation)
方差开方后称为标准差,其单位与变量值单位及均数单位相同,变异度越大,则离均差平方和越大,标准差越大,说明个体差异越大,均数的代表性越差。为了简化计算,标准差的计算公式还可写为:
(?x)2?x?nS?n?1
2医学统计学
分组资料的计算:
S??fx2?(?fx)2n
n?1如上例:n=110 ∑fx2 = 1584990 ∑fx = 13194
S??fx2?(?fx)2n?
1584990?131942/110?4.72cm110?1n?1
(5) 变异系数(cofficient of variation, CV) 定义: 标准差与算术均数之比,cv?sx??100%
其描述了相对于算术均数而言标准差的大小,即描述数据的变异相对于其平均水平来说是大还是小。
与前面介绍的四种离散程度指标相比,变异系数有以下两个不同之处: 1:它描述的不是数据分布的绝对离散程度,而是相对离散程度; 2:它不象极差、四分位数间距、方差、标准差那样具有取值单位。 这两个特点决定了变异系数的应用也不同于前面四个离散程度指标。 它常用于:
1、比较度量衡单位不同的多组资料的变异度:
例如:某地 20岁男子 100人,其身高均数为166.06cm,标准差为 4.95cm;其体重均数为 53.72kg,标准差为 4.96kg. 欲比较身高与体重的变异何者为大,由于度量单位不同,不能比较其标准差而应比较其变异系数 身高 cv? 体重 cv?4.95cm?100%?2.98%
166.06cm4.96kg?100%?9.23%
53.72kg 由此可见,该地20岁男子体重的变异大于身高的变异。