编号 2010211919
毕业论文
(2014届本科)
题 目:非参数假设检验的几种检验方法及其简单应用 学 院: 数学与统计学院 专 业: 数学与应用数学 作者姓名: 罗润寿 指导教师: 魏瑛源 职称: 副教授 完成日期: 2014 年 5 月 20 日
二○一四 年五 月
非参数假设检验的几种检验方法及其简单应用
罗润寿????????指导教师?魏瑛源?
?河西学院数学与应用数学专业2014届1班19号??甘肃张掖?734000??
?
摘??要? 本文主要介绍了非参数假设检验的概念和非参数假设检验的几种检验方法,卡方检验、柯尔莫哥洛夫检验、秩和检验以及符号检验,并通过结合生产和生活中的实例给出了一些具体的应用.
关键词??样本;非参数假设检验;卡方检验;柯尔莫哥洛夫检验;秩和检验;符号检验 中图分类号??O212.7?
?
Several test methods of Nonparametric hypothesis test and its simple
applications
Luo Runshou Instructor Wei Yingyuan
(No. 19, Class 1 of 2014, Specialty of Mathematics and Applied Mathematics, Hexi University,
Zhangye, Gansu, 734000)
Abstract:This paper mainly introduces the concept of nonparametric hypothesis testing and several kinds of test methods,such as chi-square test, kolmogorov test, sum of ranks inspection test and symbols test, by using examples of production process and living, some specific applications are given.
Keywords: Sample; Nonparametric hypothesis testing; Chi-square test; Kolmogorov test; sum of ranks inspection; Sign test ??
1 引言
????非参数检验是统计学的一个重要分支,它不依赖于总体的分布,仅需要一些
一般(例如连续分布,对称分布等)的假设,进行统计推断时,只利用样本观察值中一些非常直观的信息.非参数检验常用于以下四种情况:(1)待分析资料不满足参数检验所要求的假定,因而无法应用参数检验.(2)资料仅由一些等级构成,因而无法应用参数检验.(3)所提的问题中并不包含总体参数,这时也适宜采用非参数方法.(4)要迅速得出结果时采用的简单方法.非参数检验与参数检验相对应,含有丰富的统计思想,并在社会学、医学、心理学、教育学等领域都有广泛应用. ?
2 卡方检验
定义1[1] 非参数检验是指不需要对总体分布做任何事先的假定,也不以检验总体的参数为目的的假设检验.
1
定理1[2](皮尔逊定理) 当随机样本容量n充分大(n?50)时,将样本分成互斥的k类,每类实际出现的频数为fi,而根据对总体的假设,每类应出现的理论频数(或称期望频数)为ei,则统计量
(fi?ei)2 ???
ei?1i2k近似服从自由度为k?1的?2分布.
皮尔逊定理表明,?2检验就是检验观察值与理论值之间的紧密程度.根据皮尔逊定理,检验步骤如下:
(1)提出假设
原假设H0:总体服从某一理论分布; 备择假设H1:总体不服从某一理论分布;
(2)随机抽取容量为n(n?50)的样本,将样本分成k类; (3)根据分类结果确定每类的实际频数fi;
(4)假定原假设为真,算出每类的理论频数ei(ei?5),若ei?5,则将相邻几类的频数合并;
(5)建立检验统计量
(fi?ei)2 ???ei?1i2k它近似服从自由度为k?r?1的?2分布,r为指定分布中被估计的参数的个数;
(6)计算检验统计量?2的值,根据给定的显著性水平?做出决策.
2若?2???,则拒绝H0;反之接受H0.
例1 在对IT行业的工作满意度调查中,7%的信息系统管理者认为“非常满意”,58%认为“基本满意”,24%认为“不太满意”,4%认为“根本不满意”,7%认为“不确定”.而计算机程序员工作满意度样本数据由表1给出.
表1 计算机程序员工作满意度评价实际频数表 工作评价 频数 工作评价 频数 非常满意 48 根本不满意 16 基本满意 323 不确定 63 不太满意 79 合计 529 2
试判断计算机程序员工作满意度和信息系统管理者工作满意度是否相同?取??0.01.
解 如果计算机程序员工作满意度和信息系统管理者工作满意度相同,那么计算机程序员工作满意度的概率分布就应与信息系统管理者工作满意度的分布相同.因此可提出如下假设:
原假设H0:总体服从pA?0.07,pB?0.58,pC?0.24,pD?0.04,pE?0.07分布; 备择假设H1:总体不服从pA?0.07,pB?0.58,pC?0.24,pD?0.04,pE?0.07分布; 在原假设H0成立的条件下可计算出计算机程序员工作满意度评价的理论频数,见表2.
计算检验统计量
(fi?ei)2(48?37.03)2(63?37.03)2????????41.692 ,
ei37.0337.03i?12k22因为??0.01,??(k?1)??0.01(5?1)?13.277,而?2?41.692?13.277,所以拒绝原假
设H0,即可以得出结论,计算机程序员的工作满意度和信息系统管理者的不相同. 表2 计算机程序员的工作满意度评价理论频数计算表 工作评价 理论频数 工作评价 理论频数 529?0.07?37.07 529?0.04?21.16 非常满意 基本不满意 529?0.58?306.82 529?0.07?37.03 基本满意 不确定 529 529?0.24?126.96 不太满意 合计 定理2[3] 设F0(x)为总体的理论分布,理论频率为pi?P(X?Ai),则当H0成立时,不论F是什么分布,统计量
(ni?npi)2 ???npii?12k当n??时的极限分布为?2(k?1),其中k是分组的组数.
n(ni?npi)2nni注1:(1)?定义各项中?(?pi)2,(i?pi)2是反映了频率与概
nnpipin2率的偏差,如果偏大应拒绝H0;若偏小可接受H0,系数想的极限分布?2(k?1);
n是为了使?2有一个理pi(ni?npi)2(2)统计量???的定义与样本空间S的划分有关,只有当样本空
npii?12k 3
间的划分S??Ai取得合适时,构造的离散分布pi?P(X?Ai)(i?,2,?,n)才能较
i?1k好地近似F0(x),这其实也是?2检验法的一个缺陷所在;
(3)实际中遇到最多的是分布族的检验,也就是检验总体是否属于某种分布族.
例2 将一颗骰子掷了120次,结果如下: 点数:1,2,3,4,5,6;
频数:21,28,19,24,16,12;
试在显著性水平??0.05下检验骰子是否均匀?
11解 检验骰子是否均匀,就是要检验假设H0:pi?,H1:pi?(i?1,2?,6)
66计算得:
(ni?npi)2 ???npii?126111(21?120?)2(28?120?)2(19?120?)26?6?6? ?111120?120?120?666111(24?120?)2(16?120?)2(12?120?)26?6?6?8.1. 111120?120?120?6662对??0.05,k?6,?0.95(6?1)?11.071??2?8.1,故接受假设H0,即认为这颗骰
子是均匀.
注2:在用定理2计算统计量时,必须满足: (1)n一定要够大,最好达到n?50;
(2)每npi不能太小,最好达到npi?5,否则应适当合并Ai以满足要求.
3 符号检验
符号检验是利用正、负号的数目对某种假设作出判断的方法.它直观、简单,不需要知道被检验量的分布规律,用途十分广泛.在实际应用中,它分为单样本和两个样本的符号检验.在这里,只介绍两个相关样本的符号检验.
两个相关样本的符号检验是通过对比样本的成对数据来确定正负号,根据正负号的数目的对比来判断两个样本有无显著差异.
定理3[4] 设P?是正号出现的概率,P?是负号出现的概率;若两样本无显著差异,则正负号出现的概率应该相等.
原假设H0:P??P?;备择假设H1:P??P?.
4