(5).病例-时间-对照设计 (case-time-control design)。 四、用途
1、探索疾病可疑的危险因素。
2、深入检验某个或某几个病因假设。 3、评价防治措施的效果。 4、用于疾病预后因素的比较: 第三节:实例
第四节 、 病例对照研究的设计与实施
一、提出病因假设: 二、研究类型的选择. 1.配比因素的确定
已知或非常怀疑某种因素为研究中的混杂因子 2、配比方法
三、病例与对照的来源与选择: (一)病例的选择
1. 病例内外部特征的限制
内部━━患病部位、病理类型、诊断标准。 外部━━年龄、性别、种族。 2. 病例类型的选择 新发、现患、死亡。 3. 病例来源限制 医院确诊、普查。 (二)对照的选择 条件
1. 未患此病的人(可以是其它疾病); 2. 不能有共同危险因素的疾病病人; 3. 除研究因素外其它条件一致; 4. 来自同一人群; 来源
1. 从医院病人中选对照; 2. 从全人口中选对照;
3. 从亲属、同事、邻居中选对照。 四、样本大小的估计
1、有关的影响因素: (1)、研究因素在对照组中的暴露率; (2)、估计该因素引起相对危险度; (3)、希望达到的精确度; (4)、希望达到的检验把握度; (5)、是单侧还是双侧检验; 2、估计的方法:
样本只是一个估计值,过大、过小都不好,相等时效率最高。(见下页) 除查表法,还可按分式估计样本含量 : (1)、非配比两组人数相等的样本估计: 例:在吸烟与肺癌的病对研究中。某人群有吸烟史的人为20%(P0),假定OR = 2,设α= 0.05, β= 0.1,求N ?
P1 =(0.2 × 2)/ [1+0.2(2–1)] = 0.333
q1 = 1–P1, P = ( P0 + P1 )/2 , q = 1–P. 代入公式: 单侧:N = 186(人) 双侧 :N = 228(人) Zα= 1.645 Zβ= 1.282, Zα= 1.960 Zβ= 1.282 (2)、非配比两组人群不相等的样本估计
设:病例数:对照数 = 1:c 病例数: N=
)2 2
(1+1/c)pq(Zα+Zβ / (P0 – P1 )
26
P =(P1+c P0) /(1+c) 对照数= CN 例:按上例, 设c 为1.2,
P=(0.33+1.2×0.2)/(1+1.2)= 0.26 q = 1-0.26 =0.74
2
(单侧) N =(1+1/1.2)×0.26×0.74/(1.645+1.282)
=186(人)
对照数CN = 223(人) (3)、1:1配比样本估计:
所需要的总对子数:M = m / (p0q1+p1q0)
22
m = [Zα/2+ Zβ ^/ p(1–p)]/(p–1/2) P = OR/(1+OR) ≈ RR/(1+RR)
例:设α= 0.05,β= 0.1, P0=0.3, RR=2,双侧。 那麽: Zα =1.960, Zβ =1.282,
P1 =P0·RR /[1+P0(RR–1) =0.46, q1=1–P1=0.54,
q0 =1–P0=0.7, P =2/3 代入公式:
22
m =[1.960+1.282 ^/2/3x1/3]/(2/3–1/3)=90
M =90 / (0.3 × 0.54+0.46 × 0.70) ≈ 186(对) (当RR从2—4时,样本对子数从186对下降至45对) (4)、1:R配比样本的估计:
2 2
N =(1+1/ R)pq(Zα+ Zβ)/(P1–P0)
P=(P1+RP0 )/ (1+R)
按上例:设α= 0.05(双侧), β= 0.1,
R(对照)=2 RR=2, Zα =1.960, Zβ =1.282,
P =0.35, q=1–0.35=0.65. 代入公式:
2
N=(1+1/2) × 0.35 × 0.65 × (1.96+1.282)
2
/(0.46–0.3)= 140 病例140人,对照140 ×2 五、研究因素的确定和资料的收集 (一)研究因素的确定 1、变量的选定 2、变量的标准 3、变量的测量 4、变量的可靠性 (二)调查表的编制 (三)调查员的培训
第五节、资料的整理与分析
一、资料整理
资料的分组、归纳、编码、输机。 二、资料分析 (一)、描述性分析
1、描术研究对象的一般特征:研究对象人数及各种特征的构成、如性别、年龄、职业、疾病类型的分布等. 2、均衡性检验:比较两组某些基本特征是否相似或齐同.目的是检验病例组与对照组是否有可比性。
27
(二)、统计性分析
1.不匹配、未分层资料的分析. 病例对照研究资料整理表 (1)显著性检验 (2) 联系强度
比值比(odds ratio,OR) RR(relative risk)称为相对危险度, 表示暴露组与非暴露组发病率之比,分析疾病与暴露之间联系强度,是一种概率。 病例对照秒研究中不能计算概率,只能用OR代替RR。 RR = 暴露组的发生率/非暴露组的发生率. (表示E组的发生率是非E组的多少倍) RR=1(无意义) RR>1(正相关)(危险因素) RR<1(负相关)(保护因素)
OR的含义与RR均同。疾病率小于5%时,OR是RR的极好近似值。
22
例题:X=(ad–bc)t/m1m0n1n0 = 7.70 , P< 0.01,
(1±1.96 / )
OR = ad/ bc = 2.20. OR95%CI = OR = 1.26-3.84
口服避孕药与心肌梗死的病对研究
Woolf方法求Z : Z=InOR/√(1/a+1/b+1/c+1/d) =0.7885/0.2874 =2.74
2
·: Z=2.77>2.58 .?P<0.01 如X判断结果一致
Woolf求OR95%CI: Var(InOR)= 1/a+1/b+1/c+1/d = 0.0826 lnOR95%CI = InOR±1.96√ Var(InOR)
= 1.3218—0.2250 exp(1.3218,0.2252) = 3.75,1.25. 即OR95%CI=1.25- 3.75 如前类同。 2、非配比的分层分析
分层分析的目的是排除混杂因素的干扰。分层就是把研究人群按其特征分为不同层次然后分别分析各层中暴露与疾病的关联性。
年龄 例:肺癌 年龄可能是混杂因素 吸烟
混杂因素— 是指与研究因素和研究疾病均有关。若在比较人群组中分布不均,可以歪曲因素与疾病之间真正联系的因素。 分层分析的步骤如下
2
(1)按归纳表整理资料,先不分层,计算X和OR;
2
(2)按估计的混杂因素分层,并计算各层Xi和Ori (3)判断分层因素与研究因素和疾病的关系;
2
(4)计算XMN , ORMN和95%CI ;
(5)判断分层因素是否为混杂因素:
OR(分层前)≈ ORMH 无混杂存在。 OR(分层前)>ORMH 正相关。 OR(分层前) 2 可采用Mantel – Haenszel分式计算XMH. ORMH和95%CI : 22 XMH = [∑ai – ∑E(ai)]/ ∑ v(ai) i 为第 n 层 ∑ E(ai) = ∑( Mli Nli /Ti ) 2 ∑ Var(ai) = ∑ Mli Moi Nli / Ti(Ti-1) OR MH = ∑(aidi/Ti)/ ∑(bici/Ti) (1±1.96//ˉX2) ORMH95%CI =ORMH ^ 28 例题:(1)分层前: OC 与MI的关系 OC D D 合 计 + 39 24 63 – 114 154 268 合计 153 178 331 2 X=7.70 P<0.01 OR=2.20 OR95%CI=1.25—3.75 (2)按年龄分层 OR1=2.80 OR2=2.78 暴露特征 <40岁 合 ≥ 40岁 合 D D 计 D D 计 服OC 21a1 17b1 38n11 18a2 7b2 25n12 未服OC 26c1 59d1 85n01 88c2 95d2 183n02 合 计 47m11 76m01 123t1 106m12 102m02 208t2 (3)、判断分层因素与研究因素和疾病的关系 年龄与OC 2 <40岁 ≥ 40岁 X= 8.99 OC(+) 17 7 OR=3.91 OC(-) 59 95 年龄与口服避孕有关 年龄与MI的关系 2 <40岁 ≥ 40岁 X=7.27 MI 26 88 OR=0.48 非MI 59 95 年龄与心肌更死有关 (小年龄有保护作用) 所以年龄具有混杂因素的条件,可能为混杂因素。 2 (4)、计算XMH,ORMH和ORMH的95%可信限 ∑ E(ai)=27.26, ∑ V(ai)=11.77, 22 XMH=[∑ ai—∑E(ai)]/ ∑ V(ai) =11.79(有统计学联系), ORMH= ∑ (aidi/ti)/ ∑ (bici/ti) =2.79(联系强度为2.79), ORMH95%CI=2.22—3.80(不包括l,有显著性水平) (5)、判断年龄是否为混杂因素 因为OR分层前=2.20, ORMH=2.78, OR分层前< ORMH(为负相关), 由于年龄的混杂作用,使得暴露因素避孕药与心肌梗死的关联性趋向l,即减弱了它们之间的关联性。 3、分级资料的分析 22 X=N[∑ (a/nR × nc)—1]=43.15,df=3,P〈0.01,OR1=ald/cbl=33 × 27/2× 55=8.10 各级之间有显著性差异。OR值随着吸烟量的增加,呈现明显的剂量反应关系。 4、配比资料的分析: 配比研究是在设计阶段消除混杂因素干扰研究因素与疾病关系的一种方法。 1:1配比病例对照研究: 2222(1±1.96//ˉX2) X=(b-c)/(b+c)或X=(∣b-c∣-1)/(b+c),OR=c/b,OR95%Cl=OR^ 22 例:X=(lb-c1-1)/(b+c)=34.23, P<0.01, OR=c/b=39,OR95%CI=14.3—106.5, 说明脑动脉管炎与患有钩体病有密切联系,其联系强度为39. (5)归因分值(attributable fraction,AF) 也叫病因分值(etiologic fraction, EF)、 暴露人群的归因分值: AFe=(Ie-Iu)/ Ie =(OR-1)/OR 29 人群归因分值记为AFP AFP=(Ip-Iu)/ Ip =Pe(OR-1)/ 1+Pe(OR-1) 归因分值是具有公共卫生意义的指标,它同时还代表人群中随机抽取一个病例可能因该暴露引起的概率。 其他方法 如果暴露是分等级的,可按不同暴露等级计算OR值,作剂量-反应关系的分析。 Logistic回归等统计分析方法在病例对照研究资料分析中应用颇为广泛。 第四节 偏倚和控制 一、常见的偏倚 (一)选择性偏倚 由于研究对象与非研究对象间的特征有系统区别而产生的误差。可分为: 1. 住院偏倚 2. 存活病例偏倚 3. 选择性转诊偏倚 4. 检诊偏倚 5. 无应答偏倚 (二)信息偏倚 在收集整理资料过程中由于测量暴露或结局的方法有缺陷造成的系统误差。可分为: 1. 回忆偏倚 2. 因果倒置偏倚 3. 调查偏倚 (三)错误分类偏倚 将一个调查对象或一个特征错误地分到不是它所属的类别中。 (四)混杂偏倚: 基本特点: 1. 混杂因子必须是所研究疾病的独立危险因子; 2. 在非暴露组中,它必须是一危险因子; 3. 混杂因子不应是疾病因果链上的中间变量; 4. 在人群中的分布与所研究的暴露的分布相关; 5. 对混杂因素可用分层分析、标准化处理; 6. 对明显偏倚下结论应慎重。 排除方法:可用分层分析。 二、偏倚的控制 ?认识其重要性,并预防其发生或进行适当的处理。 ?在预防上应加强科学设计,如随机原则、双盲及指标的客观性等。 ?资料处理中应注意两组均衡性。 ?分析偏倚发生的原因。 第五节 优点与局限性 一、优点 1. 可用于对罕见病的研究; 2. 较快地估计慢性病的危险因素; 3. 省时、省钱、省人力,并易于组织; 4. 可检验有明确假设的危险因素,又可广泛探索尚不够明确的众多因素。 二、局限性 1. 对暴露比例低的疾病的因素,需样本太大; 2. 易造成选择偏倚; 3. 难以避免回忆偏倚; 4. 混杂的影响较难控制; 5. 难以判断疾病与时间的先后。 30