两个样本数据分别(x1,x2,???,xn)和(y1,y2,???,yn),比较成对数据,首先去掉观察值相同的样本对;若xi?yi,差值为正记为“+”,若xi?yi,差值为负记为“-”,正号和负号的数量分别为n?和n?,正负号之和是样本容量n,即n?n??n?.
在小样本情况下(n?20)统计量为
i?1? P?2?Cn??,k?min?n?,n?? (1) ?2?i?0kn在大样本情况下(n?20),若原假设为真,则二项分布可近似服从于正态分布
N(0,1),检验统计量为
k?0.5? Z?n2n2 (2)
在小样本情况下(n?20),若P值??,则拒绝原假设; 在大样本情况下(n?20),若Z?Z?,则拒绝原假设.
2符号检验仅利用了符号的信息,并没有考虑数据大小,因而精确度不高.
例3 某公司目前招聘一名广告市场分析的研究员,共有20名应聘者前来应聘,客户部经理和市场部经理给这20名应聘者的面试分数由表3给出,试分析客户部经理和市场部经理的评价标准是否一致(??0.05).
解 该问题可以用符号检验的方法进行处理,根据题意提出假设: 原假设H0:P??P?,即客户部经理和市场部经理的评价标准一致; 备择假设H1:P??P?,即客户部经理和市场部经理的评价标准不一致. 根据已知表的数据,计算样本对差值的符号,结果由表4给出. 根据表4中的样本数据得,n??10,n??8,n?18.由于n?18?20,所以属于小样本情况,根据公式(1)得
k?min?n?,n???min?8,10??8,
8?1?i?1?P?2?C???2?C18???0.815. ?2??2?i?0i?0inkn18显著性水平??0.05,P?0.815??,故接受原假设,即认为两个经理的评价标 准一致.
5
表3 应聘者得分统计表 应聘者 客户部经理 市场部经理 应聘者 客户部经理 市场部经理 1 90 90 11 80 82 2 87 88 12 84 79 3 73 86 13 91 70 4 99 95 14 67 60 5 67 89 15 81 90 6 95 80 16 91 90 7 64 64 17 65 70 8 85 90 18 73 64 9 91 89 19 92 95 10 83 80 20 86 85 表4 样本对观察值的差值的符号 应聘者 客户部经市场部符号 应聘者 客户部经市场部经符号 理 经理 理 理 1 90 90 0 11 80 82 - 2 87 88 - 12 84 79 + 3 73 86 - 13 91 70 + 4 99 95 + 14 67 60 + 5 67 89 - 15 81 90 - 6 95 80 + 16 91 90 + 7 64 64 0 17 65 70 - 8 85 90 - 18 73 64 + 9 91 89 + 19 92 95 - 10 83 80 + 20 86 85 + 例4 某公司采用广告销售,随即选取30个城市,得到广告促销前后的销售额的样本数据,如表5所示(单位:万元). 试用符号检验分析促销活动的效果(??0.05).
解 根据题意提出假设为:
原假设H0:P??P?,即认为广告前后销售额无显著差异; 备择假设H1:P??P?,即认为广告前后销售额有显著差异. 根据表5中的数据得,n??7,n??18,n?25.
k?min?n?,n???min?7,18??7,
统计量Z的观察值
6
n257?0.5?2?2??2. Z?n2522显著水平??0.05,查表得到Z??1.96,而Z?2?Z??1.96,所以拒绝原假
k?0.5?22设,即认为广告前后销售额有显著差异,广告有助于促销.
表5 广告促销前后销售额的比较表 城市 广告前 广告后 符号 城市 广告前 广告后 1 42 40 + 16 47 49 2 58 60 - 17 53 50 3 38 38 0 18 48 48 4 47 49 - 19 54 57 5 50 51 - 20 62 66 6 57 57 0 21 75 77 7 49 47 + 22 50 50 8 63 65 - 23 51 52 9 36 39 - 24 83 85 10 44 42 + 25 34 37 11 53 53 0 26 51 48 12 56 58 - 27 58 61 13 8 50 - 28 27 33 14 39 41 - 29 66 67 15 44 43 + 30 53 53 符号 - + 0 - - - 0 - - - + - - - +
4 柯尔莫哥洛夫检验
与?2检验中的情况一样,假设有F(x),F?(x),在总体中取n个样本并将其样本值按大小排成x?1??x?2????x?n?的顺序,记Fn(x)为不大于x的样本值出现的概率,则
?0,x?x?1????kFn(x)??,x?k??x?x?k?1?
?n?1,x?x?n???????称Fn(x)为样本分布函数.
定理4[7](格列汶科定理) 设总体分布函数为F(x),样本分布函数为Fn(x),
7
则
P?limsupFn(x)?F(x)?0??1. ?n???即当n???时,Fn(x)以概率1关于x均匀收敛于F(x).它表明,当n很大时,可以用Fn(x)近似代替F(x),
即 F(x)?Fn(x) 这是能用样本推断总体的理论根据.
柯尔莫哥洛夫检验方法如下:
(1)提出假设
原假设H0:F(x)?F?(x); 备择假设H1:F(x)?F?(x). 利用Fn(x)?F?(x)对H0进行检验.
(2)取统计量
Dn?supFn(x)?F?(x),x?(??,??)
并称Dn为Fn(x)与F?(x)的差异度. Dn是一个随机变量,它有自己的分布.柯尔莫哥洛夫证明了:若X是连续型随机变量,对任意常数?,记F(?)?P则
limF(?)?n???nDn??,
?k????(?1)ek??2?2?2?Q(?)
Q(?)的值已被列成数表,可供查用,由此得出,当n充分大时
F(?)?Q(?),即P(nDn??)?Q(?);
(3)对给定的?,写出小概率事件的概率表达式
P?nDn?????;
?(4)查Q(?)数表,能求得??,方法如下:因为
Q(??)?P?nDn????1?P??nDn????1??
?所以,??是对应于Q(?)?1??的?. 根据样本值和Fn(x),F?(x),求出ndn;
8
(5)判断:若ndn???,则拒绝H0,若ndn???,则接受H0. 例5 为确定总体X的分布,取容量n?10的样本测得样本值如下 0.54, 0.21,0.31,0.40,0.46,0.17, 0.14,0.12, 0.51,0.50试判断总体X在区间(0,1)上是否服从均匀分布?(??0.05)
解 若在(0,1)上服从均匀分布,则有理论分布
?1,x?(0,1)f?(x)??
0,其它??0,x?0?F?(x)??x,0?x?1
?1,x?1?现在样本值按由小到大的顺序列于表6中.
由样本的经验分布函数为
kFn(xk)?,k?1,2,?,10,n?10
nFn(xk),F?(xk)的数值以及它们的差值都在表6中.
序号?1 2 3 表6 4 5 6 7 8 9 10 xk?Fn(xk)?0.12 0.14 0.17 0.21 0.31 0.40 0.46 0.50 0.51 0.54 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.12 0.14 0.17 0.21 0.31 0.40 0.46 0.50 0.51 0.54 0.07 0.04 0.02 0.01 0.06 0.10 0.11 0.10 0.06 0.04 F?(xk)?Fn(xk)?F?(xk)?现对F?(x)进行检验.
(1)原假设H0:F(x)?F?(x); (2)在H0成立的条件下,取统计量
Dn?supx?(??,??)Fn(x)?F?(x)?maxFn(xk)?F?(xk);
1?x?n(3)对给定的??0.05,P(nDn??0.05)?0.05;
(4)查Q(?)表,Q(?0.05)?0.95,?0.05?1.36,从表6中看出
9