非参数统计实验报告
一、实验目的及要求
学习两独立样本数据位置检验方法,包括Brown-Mood检验,Man-Whitney秩和检验,以及有打结情况的处理;尺度检验的方法,包括Mood检验,Moses检验。掌握不同方法的适用条件(如Mood检验假设两样本均值相等),检验原理,并能够运用R软件进行操作求解。
二、环境
R软件
三、原理
(一)Brown-Mood检验
将X、Y两样本混合,求混合数据的中位数Mxy,记录样本X中大于Mxy的个数A,A的分布服从超几何分布,A太小或太大时考虑拒绝原假设。(只有方向的信息,没有差异大小的信息)
(二)Man-Whitney秩和检验
假设样本X1,X2...,Xm来自于F(x??a),样本Y1,Y2,...,Yn来自于F(y??b),把两样本混合,求混合数据的秩R,计并且X1,X2,...,Xm与Y1,Y2,...,Yn相互独立。算样本X1,X2...,X18的秩和WX,样本Y1,Y2,...,Y18的秩和WY,并进行比较。其中
m(m?1)n(n?1)WX?WYX?,WY?WXY?,WYX?#(Yi?Xj,i?In,j?Im),表示
22混合数据中样本Y1,Y2,...,Y18小于样本X1,X2...,X18的个数。如果WX过大或者过小,那么数据将支持H1:?x??y或者H1:?x??y,将不能证明两样本形成的序列是一个随机的混合,将拒绝X、Y来自相同总体的零假设。(充分利用差异大小的信息)
(三)Mood检验
前提假定X、Y两样本具有相同的均值,将X、Y两样本混合,求混合数据
m?n?12m),M偏大,则样本X的中样本X的秩Ri,构造统计量M??i?1(Ri?2方差可能偏大,可以对大的M拒绝零假设。
(四)Moses检验
不需要假定X、Y具有相同的均值,将样本X随机均分为m1组,每组k个数据,计算每组的偏差平方和SSAr?x?Ar?(xi?x)2,r?1,2,...,m1,将样本Y随机均
分为m2组,每组k个数据,计算每组偏差平方和SSBs,混合SSAr和SSBs,计算混合数据中SSAr的秩和S,计算统计量TM?S?考虑拒绝原假设。
m1(m1?1),如果TM值很大,2四、实验方案设计
(一)题目
4.4 两个不同学院教师一年的课时量分别为(单位:学时): 学院 A B A B 课时(学时) 386 330 329 428 807 342 258 342 243 451 492 514 321 488 221 589 266 593 365 665 256 507 250 549 303 512 298 391 334 350 238 366 299 672 317 469 根据这两个样本,两个学院教师讲课的课时是否存在不同?估计这些差别。从两个学院教师讲课的课时来看,教师完成讲课任务的情况是否类似?给出检验和判断。
(二)题目分析
鉴于Brown-Mood检验仅利用了方向信息而没有利用差异信息,此题选择Man-Whitney秩和检验方法检验两个学院教师讲课的课时是否存在不同。因为Mood检验假定两样本具有相同均值,初步观察数据认为亮学员教师讲课的课时均值不同,需要使用Moses检验方法来检验教师完成讲课任务的情况是否类似。但是,还是要根据Man-Whitney检验的结果来说明是否可以使用Mood检验。
(三)一般步骤
1.Man-Whitney秩和检验
(1)提出假设:H0:?x??y , H1:?x??y (2)给定显著性水平?,单样本容量m,n (3)计算统计量WX?WYX?m(m?1),其中WYX?#(Yi?Xj,i?In,j?Im) 2(4)拒绝域为{WX?r1}或{WX?r2},由P(WX?r1)??2?P(WX?r2)确定r1,r2
m(n?m?1),2(5)如果是大样本,可以用正态分布近似,求Wx的均值E(Wx)?方差为Var(Wx)??Var(Rx)??ni?1j?1(j?i)?nCov(Ri,Rj)?mn(m?n?1)。
12(6)在零假设下,若m,n??,且
m??,则计算m?nW?m(n?m?1)/2Z?x?N(0,1)
mn(m?n?1)/12(7)对于打结情况下的修正
Z?Wx?m(m?n?1)/2mn(m?n?1)/12?mn(?i?1???i?)3gg,其中g表示结的个数,?表示结长。
12(m?n)(m?n-1)2.Moses检验
(1)做出假设:H0:?1??2 , H1:?1??2
(2)将样本X随机均分为m1组,每组k个数据,计算样本均值X;将样本Y随机均分为m2组,每组k个数据,计算样本均值Y; (3)计算每个样本组的偏差平方和
SSAr?x?Ar?(xi?x)2,r?1,2,...,m1 , SSBs?yi?Bs?(yi?y)2,s?1,2,...,m2
(4)混合SSAr和SSBs,计算混合数据中SSAr的秩和S,计算统计量
TM?S?m1(m1?1)。 2五、实验过程
(一)Man-Whitney秩和检验两学校教师授课课时是否存在不同
1.通过做折线图、boxplot观察两组数据的特征,发现A学校教师授课课时整体小于B学校,但是需要进一步做中位数检验。 h<-c(1:18)
x y opar<-par(no.readonly=TRUE) par(lwd=2,cex=1.5,font.lab=2) plot(h,y,type=\lines(h,x,type=\ legend(\=c(\)) #红色的线表示B学院,蓝色的线表示A学院 par(opar) 2.作出假设: H0:?x??y , H1:?x??y 3.计算统计量的值: (1)利用R软件把两样本数据混合,求混合数据的秩,计算出Wx?176.5,查表当m?18,n?18,时正态分布的临界值q0.05为110,所以拒绝原假设,认为B学院教师授课课时大于A学院。 > c<-c(x,y) #将两学院数据混合 > rank(c) #求混合数据的秩 [1] 12.0 7.0 5.0 21.0 14.0 13.0 10.0 15.0 9.0 1.0 19.0 4.0 6.0 16.5 [15] 3.0 8.0 2.0 11.0 26.0 33.0 28.0 23.0 36.0 16.5 29.0 18.0 35.0 32.0 [29] 34.0 31.0 24.0 27.0 30.0 22.0 20.0 25.0 > w<-sum(rank(c)[1:18]) #求A学校18个数据的秩和 >w [1] 176.5 (2)因为每一个样本中都有18个数据,于是在没有注意到混合数据中有结的情况下,就用R软件中的Wilcox.test(x,y)检验,发现有结存在,检验中警告:因为有结的存在不能够计算出准确的P值,需要进行连续性调整。 (3)于是又在R中自己计算标准正太分布的Z值,并进行了相应的连续性修正,以及有结情况下方差的调整,得Z??4.95176,P?3.677272e?07。最终拒绝原假设,认为A学校的授课学时小于B学校的授课学时。 > rank(x) #求A学院数据的秩 [1] 12 7 5 18 14 13 10 15 9 1 17 4 6 16 3 8 2 11 >m<-max(rank(x)) #计算A学院数据个数 > rank(y) #求解B学院数据的秩 [1] 8 15 10 5 18 1 11 2 17 14 16 13 6 9 12 4 3 7 > n<-max(rank(y)) #求B学院数据的个数 > u<-(m*(m+n+1))/2 #计算Wx的均值 > v<-(m*n*(m+n+1))/12 #计算Wx的方差 > t<-(m*n*6)/(12*(m+n)*(m+n-1)) #有结点的调整项 > p<-pnorm(w,u,sqrt(v-t)) >p [1] 3.677272e-07 > z<-(w-u)/sqrt(v-t) >z [1] -4.95176 (二)Moses检验两学校教师完成讲课任务情况是否相似 1.根据两样本位置检验的结果,决定要用Moses检验学校教师完成讲课任务的情况; 2.假设:H0:?1??2 ,H1:?1??2 3.将样本X随机均分为6组,每组3个数据,计算样本均值X?297.5556;将样本Y随机均分为6组,每组3个数据,计算样本均值Y?510.2778。 >mean(x) [1] 297.5556 > mean(y) [1] 510.2778 > a<-rnorm(18,0,1) #利用正态分布产生一组随机数 > rank(a) #求随机数的秩 [1] 11 2 14 16 15 10 13 1 7 6 12 3 17 4 5 8 9 18 > b<-rank(a) >b [1] 11 2 14 16 15 10 13 1 7 6 12 3 17 4 5 8 9 18 > c<-x[b[1:3]] #利用随机数的秩将X分组 >c [1] 365 266 342 4.计算每个样本组的偏差平方和 组数 离差平方和 秩 1 365 266 342 7519.808 5 2 298 243 221 8837.271 6 3 258 321 303 2143.927 2 4 329 250 256 4977.153 4 5 238 386 330 12421.92 7 6 334 299 317 1708.365 1 5.混合SSAr和SSBs,计算混合数据中SSAr的秩和S?25,SSBr的秩和S?53计算T?S?m(m?1)/2?32,W0.975?m1*m2?W0.025?30,TM?W0.974,所以 MB11不能拒绝H1,认为两学院教师授课课时完成情况存在差异。 六、实验总结 (一)题目结论 1.经Man-Whitney检验,Z??4.95176,P?3.677272e?07,两学校教师授课课时存在明显差异,认为A学校的授课学时小于B学校的授课学时。 2经Moses检验,TM?W0.974,说明两学院教师授课课时完成情况存在差异,B学院完成情况波动性大于A学院。 (二)实验总结 1.用R软件中的Wilcox.test(x,y)检验,有结的存在不能够计算出准确的P值,需要进行连续性调整。 2.在进行Moses检验时,数据随机分组遇到问题。后来自己随机分组发现结果并不能拒绝原假设,可能是因为数据太少,可能是因为随机分组不当造成的误差。于是又利用正态分布产生18个随机数,利用18个随机数的秩将两组样本数据重新分组,重新计算结果可以拒绝原假设。