X2检验或卡方检验和校正卡方检验的计算
私立广厦学校 郭捷思
在教育学量的研究中,各种各样的统计方法已经被广泛的应用,特别是由于统计软件(如:SPSS)的不断成熟,给教育研究者提供了多种量的研究方法。但是,这并不是无论什么量的研究都要通过统计软件来实现,也不是所有量的研究一定要运用统计软件才能快捷,简便的实现。本文将教给大家几种简便的方法来实现卡方检验。
X2检验(chi-square test)或称卡方检验方法可以根
据样本数据,推断总体分布与期望分布或某一理论分布是否存在显著差异,是一种吻合性检验,通常适于对有多项分类值的总体分布的分析。它的零假设是样本来自的总体分布与期望分布或某一理论分布无显著差异。根据卡方检验基本思想的理论依据,对变量总体分布的检验就可以从对各个观察频数的分析入手。为检验实际分布与理论分布(期望分布)之间是否存在显著差异,可采用卡方检验统计量。典型的卡方统计量是pearson卡方,其基本公式为:
(fio?fie) X??ofii?12k式中k为子集个数,fo为观察频数,fe 为期望频数,X2服从k—1个自由度的卡方分布。如果X2值较大,则说明观测频数分布与期望频数分布差距较大;反之,如果X2值较小,则说明观测频数分布与期望频数分布较接近。我们将通过代入数据运算这条公式,计算出X2统计量的观测值,并依据卡方分布表计算观测值对应的概率p值。下面,将通过几个实际例子来探究如何进行卡方检验。
一、四格表资料的卡方检验
1
例1:某学校分别运用传统教学和多媒体教学在两个平行班的数学课上进行试验,目的为了检测两种教学方法对学生的成绩影响是否有差异。本实验把学生的成绩划分为优秀人数(80分以上)和非优秀人数。
表1: 两种教学方法学生成绩优秀率的比较
非优秀人合计 优秀率( %)
数 传统教学班 20 30 50 40 多媒体教学班 35 16 51 68.6 合计 55 46 101 52.5 表内这四个数据(斜体)是整个表中的基本资料,其余数据均由此推算出来;这四格资料表就专称四格表
(fourfold table),或称2行2列表(2×2 contingency table)从该资料算出的;两种教学的优秀率分别为40%和68.6%,两者的差别可能是抽样误差所致,亦可能是两种教学效果确有所不同。这里可通过卡方检验来区别其差异有无统计学意义,
组别 优秀人数 检验步骤: 1. 建立检验假设:
H0:π1=π2 (表示样本来自的总体分布与期望分布无显著差异,即传统教学和多媒体教学对学生成绩的影响并没有存在差异)
H1:π1≠π2(传统教学和多媒体教学对学生成绩的影响存在差异)
α=0.05(显著性水平;该值将用于与求出X2的概率p值进行比较,如果X2的概率p值小于显著水平α,则应拒绝零假设;反之则不能拒绝零假设)
2
2.计算理论(期望)频数(TRC),计算公式为: TRC=nR?nC 公式(20.13)
n 式中TRC是表示第R行C列格子的理论数,nR为理论数同行的合计数,nC为与理论数同列的合计数,n为总例数。(这里期望频数精确到0.0001是为了减小误差) 第1行1列: 50×55/101=27.2277 第1行2列: 50×46/101=22.7723 第2行1列: 51×55/101=27.7723 第2行2列: 51×46/101=23.2277
以推算结果,可与原四项实际数并列成表2:
表2:某学校分别运用传统教学和多媒体教学在两个平行班的数学课的试验结果比较
组别 优秀人数 非优秀人数 合计 传统教学班 20(27.2277) 30(22.7723) 50 多媒体教学班 35(27.7723) 16(23.2277) 51 合计 55 46 101 因为上表每行和每列合计数都是固定的,所以只要用TRC式求得其中一项理论数(例如T1.1=27.2277),则其余三项理论数都可用同行或同列合计数相减,直接求出,示范如下:
第1行1列:27.2277
第1行2列:50-27.2277=22.7723 第2行1列:55-27.2277= 27.7723 第2行2列:51-27.7723=23.2277
3
3.计算x2
4(fio?fie)值按公式X??代入 ofii?12k(fio?fie)2X???ofii?12222
(20?27.2277)(30?22.7723)(35?27.7723)(16?23.2277)????8.278727.227722.772327.772323.22774.查X2值表求P值
在查表之前应知本题自由度。按X2检验的自由度v=(行数-1)(列数-1),则该题的自由度v=(2-1)(2-1)=1,查X2界值表(附表1),找到X20.01(1)=6.63,X20.001(1)=10.83而本题X2=8.2787即X20.001(1)>X2>X20.01(1),所以0.001<P<0.01,按α=0.05水准,p <α,拒绝H0,差异有高度统计学意义,可以认为传统教学和多媒体教学对差生成绩的影响存在显著差异。通过X2界值表可以看出,X2越大,p值就会越小,那么试验中的差异具有的统计学意义越大。而从这个实例中,我们可以得到期望频数和实际频数相差越大,X2值就会越大。另一方面,X2值的大小又跟子集个数的多少有关,格子数越多,X2也会越大。也就是说X2随自由度的增大也增大。
二、用专用公式计算卡方X2值
对于四格表资料,还可用以下专用公式求X2值。首先把四个表依次表上字母。如图所示:
表3: 两种教学方法学生学习成绩的比较
组别
优秀人数 4
非优秀人数 合计
传统教学班 多媒体教学班 合计 20(a) 35(c) 55(a+c) 250(a+30(b) b) 51(c+16(d) d) 46(b+d) 101
a、b、
(ad?bc)2n然后套用专用公式:X? 式中
(a?b)(c?d)(a?c)(b?d)c、d各表示四个表中四个实际数,n表示总例数。
结果可以得到:X2?(20?16?30?35)?101?8.2787
50?51?55?46计算结果与前述用基本公式一致,这种方法的更为简便。
三、四格表X2值的校正算法。
上面讲解的例子中的X2值是根据正态分布中
(fio?fie)的定义计算出来的。但是当自由度为X??ofii?12k1时(即
在四格表中),如果出现期望频数fie小于5而总例数又大于
40,应用以下的校正公式:
X2??i?1k(fio?fie?0.5)2fio
如果用四格表专用公式,亦应用下式校正:
n(ad?bc?)2n2X2?
(a?b)(c?d)(a?c)(b?d)例2,对某学校的学生是否在课外时间请家教进行调查,目的是为了检测课外辅导是否对学生的成绩有影响,结果如表4。
表4: 学生是否在课外时间请家教的对成绩的影响的卡方校正计算
5