要检验医生A与医生B的诊断是否真的一致. (1)要检验假设 H0:医生A与B的诊断偶然一致??H1:医生A与B的诊断不是偶然一致。 (2)采用检验统计量U??,拒绝域为{U?u1??}。 se(?)(3)取??0.05,临界值为u1???u0.95?1.645,拒绝域为{U?1.645} (4)检验统计量的值为
0.776U???8.142?1.645,
?((b?)?b?)故在水平??0.05下拒绝H0,即认为医生A与B的诊断不是偶然一致。
对称度量 ? 一致性度量 Kappa 值 .776 57 渐进标准误差 .072 a近似值 T 近似值 Sig. 8.142 .000 b有效案例中的 N a. 不假定零假设。 b. 使用渐进标准误差假定零假设。 (P110Ex8)(联系附录7)
解法一:边际和都给定时,我们按如下方式理解需要解决的问题。 n个单元中有ni?个单元属于Ai,记非随机示性变量
Ai,?1,第k个单元具有属性 (k?1,2,?,n) yk???0,其它。n个单元的属性B看成等可能的随机分配,属于Bj的有n?j个单元,
(j?1,2,?,c)。记随机变量
Bj,??1,第k个单元具有属性?k?? (k?1,2,?,n)
??0,其它。则nij???kyk,ni???yk,n?j???k,且
k?1k?1k?1nnn
?k的分布列为
?k 0 1?n?jn1 n?jn
P k1?k2时,(?k1,?k2)的联合分布列
?k 0 ?k 211
0 1 * n?j(n?n?j)n(n?1)n?j(n?n?j) n(n?1)n?j(n?j?1)n(n?1) 从而有E(nij)??E(?k)yk??k?1k?1nnn?jnyk?n?jn?yk?1nk?n?jn?ni??ni?n?jn,
n?jn?n?jn?j(n?n?j)D(?k)???,
nnn2Cov(?k1,?k2)?E(?k1?k2)?E(?k1)E(?k2)?n?j(n?j?1)n(n?1)nn?n?jn?jn(n?n?j)????j2,(k1?k2)nnn(n?1)则
D(nij)?D(??kyk)?Cov(??k1yk1,??k2yk2)???yk1yk2Cov(?k1,?k2)
k?1k1?1k2?1k1?1k2?1nnn??yD(?k)???yk1yk2Cov(?k1,?k2)??y?2k2kk?1k1?1k2?1k2?k1k?1nnnnn?j(n?n?j)n2???yk1yk2?k1?1k2?1k2?k1nn?n?j(n?n?j)n2(n?1)2((?yk)??yk)2k?1k?1nn?n?j(n?n?j)n2?yk?1nk?n?j(n?n?j)n2(n?1)??yk1?1k2?1k2?k1nnk1yk2?n?j(n?n?j)n2?ni??n?j(n?n?j)n2(n?1)
?ni?n?j(n?n?j)n2?n?j(n?n?j)n2(n?1)(n?ni?)?2i?ni?(n?ni?)n?j(n?n?j)n2(n?1)
所以
ni?n?j2?ni?n?j2??rc(nij?)?rcE(nij?)rcD(nij)2nn??E(?)?E????????ni?n?jni?n?jni?n?j?i?1j?1?i?1j?1i?1j?1??nnn??ni?(n?ni?)n?j(n?n?j)rcrc(n?ni?)(n?n?j)n2(n?1)??????
nnn(n?1)i??ji?1j?1i?1j?1nrc1(rn?n)(cn?n)n?(n?ni?)?(n?n?j)??(r?1)(c?1)?n(n?1)i?1n(n?1)n?1j?1
解法二:给定i和j,将表格压缩为四格表,;利用超几何分布处理。
B A Bj 非Bj 合计
Ai 非Ai 合计 nij * *** n?n?j ni? n?ni? ** n?j n
则随机变量nij~HG(n,ni?,n?j),由课本62页公式
E(nij)?ni??n?jn
D(nij)?因此
ni??n?j?(n?ni?)?(n?n?j)n2(n?1)
nnnn???rc(nij?i??j)2?rcE(nij?i??j)2rcD(nij)2nn??E(?)?E????????ni?n?jni?n?jni?n?j?i?1j?1?i?1j?1i?1j?1??nnn??ni?(n?ni?)n?j(n?n?j)rcrc(n?ni?)(n?n?j)n2(n?1)??????
nnn(n?1)i??ji?1j?1i?1j?1nrc1(rn?n)(cn?n)n?(n?n)(n?n)??(r?1)(c?1)?i???jn(n?1)i?1n(n?1)n?1j?1
(P159Ex1)
分析:要确定别嘌呤醇会不会引起皮疹,数据是2?2?2的三维列联表的分析,还涉及性别,一个基本思路是如何降维成二维列联表的卡方检验或似然比检验。
解:记条件概率p1?P(皮疹|使用别嘌呤醇),p2?P(皮疹|不使用别嘌呤醇),“别嘌呤醇会引起皮疹”是指p1?p2。 (一)将三维列联表压缩成四格表的分析 (1)压缩后得四格表 引起皮疹 未引起皮疹 合计 15 52 67 使用别嘌呤醇 94 1163 1257 未使用别嘌呤醇 109 1215 1324 合计 (2)要检验假设 H0:别嘌呤醇与皮疹无关??H1:别嘌呤醇会引起皮疹。 即要检验假设
p1H0:?p2 ??
p1H1:?p2,(右侧检验)
(3)取检验统计量U?n(n11n22?n12n21),拒绝域为{U?u1??},
n1?n2?n?1n?2(4)对显著性水平??0.05,临界值u1???u0.95?1.645, (5)由题中数据算得检验统计量的值为
U?n(n11n22?n12n21)1324(15?1163?52?94)??4.326?1.645
n1?n2?n?1n?2109?1215?67?1257故在水平??0.05下拒绝H0,即别嘌呤醇会引起皮疹.
(二)将三维列联表按照性别变量分层,分别对两个四格表分析 (1)分层后得
“是否使用别嘌呤醇×是否引起皮疹”(男性)四格表 引起皮疹 未引起皮疹 合计 使用别嘌呤醇 5 33 38 未使用别嘌呤醇 36 645 681 合计 41 678 719 “是否使用别嘌呤醇×是否引起皮疹”(女性)四格表 引起皮疹 未引起皮疹 合计 使用别嘌呤醇 10 19 29 未使用别嘌呤醇 58 518 576 合计 68 537 605
(2)要分别检验假设:(对于男性)
H0:别嘌呤醇与皮疹无关??H1:别嘌呤醇会引起皮疹。 (对于女性) H0:别嘌呤醇与皮疹无关??H1:别嘌呤醇会引起皮疹。 (3)取检验统计量U?n(n11n22?n12n21),拒绝域为{U?u1??},
n1?n2?n?1n?2(4)对显著性水平??0.05,临界值u1???u0.95?1.645, (5)由题中数据分别算得检验统计量的值为
U男?719(5?645?33?36)?2.036?1.645
41?678?38?681605(10?518?19?58)U女??4.061?1.645
68?537?29?576故在水平??0.05下都拒绝H0,
即对于男性和女性,别嘌呤醇都会引起皮疹.
(三)上述压缩和分层两方面的分析结果是一致的,综合来看,可以认为别嘌呤醇会引起皮疹。 (四)(补充:条件独立性检验) (1)要检验假设:
H0:性别给定后别嘌呤醇与皮疹条件独立, ??H1:性别给定后别嘌呤醇与皮疹不条件独立。 (2)取检验统计量?????2k?1i?1j?1trc(nijk?ni?kn?jkn??kni?kn?jkn??k)2,
2拒绝域为{?2??1(t(r?1)(c?1))}。 ??(3)对显著性水平??0.05,临界值
2?12??(t(r?1)(c?1))??0.95(2)?5.9915,
(4)由题中数据分别算得检验统计量的值为
ni?kn?jk2(nijk?)222n??k?2???????20.64?5.9915
nni?k?jkk?1i?1j?1n??k故在水平??0.05下都拒绝H0,
即性别给定时,别嘌呤醇与皮疹不条件独立,是有关系的.
注1:由于涉及小样本,特别要注意对于男性的分层检验,连续性校正应该更为合理。
注2:可以发现,男性与女性的P值有差异。原因是什么?
(P159Ex2)
解:(解题思路同Ex1)
记条件概率p1?P(死亡|护理较少),p2?P(死亡|护理较多),题中关注的是p1?p2是否成立。
(一)将三维列联表压缩成四格表的分析 (1)压缩后得四格表 死亡 存活 合计 较少 20 373 393 较多 6 316 322 合计 26 689 715 (2)要检验假设 H0:护理多少与婴儿死亡无关??H1:护理少会引起婴儿死亡多。 即要检验假设
p1H0:?p2 ??
p1H1:?p2,(右侧检验)