[Grouping Variable(分类变量)]并单击[Define Range(定义范围)],在定义范围对话框的[Minimum]的右框中输入1,在[Maximum]的右框中输入4,单击[Continue]返回主对话框。
图5.6 多个独立样本检验主对话框
(3)单击[OK],输出结果如下:
从结果可以看出,两种检验方法的p 值均小于0.05,所以拒绝零假设,认为四家公司的产品之间有显著性的差异。
5.7.两个相关样本检验
两个相关样本检验的方法主要有:Wilcoxon 检验、Sign(符号)检验、McNemar 检验和Marginal Homogeneity 检验等。Wilcoxon 检验用于检验两个相关样本是否来自相同的总体,但对总体分布形式没有限制;Sign 检验通过计算两个样本的正负符号的个数来检验两个样本是否来自相同总体;McNemar 检验用于两个相关二分变量的检验;Marginal Homogeneity 检验用于两个相关定序变量的检验,是McNemar 检验的扩展。
例:为研究长跑运动对增强普通高校学生的心功能效果,对某院15名男生进行实验,经过5 个月的长跑锻炼后看其晨脉是否减少。锻炼前后的晨脉数据如下表5.6所示。
表5.6 锻炼前后的晨脉数据表
锻炼前
70
76
56
63
63
56
58
60
65
65
75
66
56
59
70
锻炼后 48 54 60 64 48 55 54 45 51 48 56 48 64 50 54
SPSS 操作步骤如下:
(1)输入数据,变量X1 表示锻炼前晨脉数据,变量X2 表示锻炼后晨脉数据。 (2)选择[Analyze]=>[Nonparametric Tests]=>[2 Related Samples]。在显示的
[Two-Related-Samples Test] 先后单击变量X1 和X2,在[Current Selections]框中的[Variable 1]和[Variable 2]中依次出现所选择的两个相关变量,然后单击右边一个右箭头按钮,变量名被选入[Test Variable List]列表框中;选择[Test Type]框中的[Wilcoxon]、[Sign]、[McNemar]和[Marginal Homogeneity]检验方法。
图5.7 两个相关样本检验主对话框
(3)单击[OK]按钮,输出结果如下:
从输出结果可以看出,p<0.05,说明经过5 个月的长跑锻炼后学生的晨脉减少了。
5.8.多个相关样本检验
多个相关样本的检验方法有:Friedman 检验、Kendall W 检验和CochranQ 检验等。Friedman 检验为双向方差分析,考察多个相关样本是否来自同一总体;Cochran Q 检验作为两相关样本McNemar 检验的多样本推广,特别适用于定性变量和二分字符变量;Kendall W 检验,通过计算Kendall 和谐系数W,以检验多个相关样本是否来自同一分布的总体。
例:某商店想了解顾客对几种款式不同的衬衣的喜爱程度。某日询问了9 名顾客,请它们对3 种款式的衬衣按喜爱程度排次序(最喜爱的给秩1,其次的给秩2,再次的给秩3,结果如下表5.7所示,试问顾客对3 种款式的衬衣的喜爱程度是否相同?
表5.7 顾客对不同款式的衬衣的喜爱程度数据表
顾客号 款式1 款式2 款式3
1 1 3 2
2 2 1 3
3 2 3 1
4 1 3 2
5 3 2 1
6 1 2 3
7 2 3 1
8 1 3 2
9 1 3 2
解:(1)在SPSS 按左图方式输入数据(变量名分别为X1、X2、X3。)
(2)选择[Analyze]=>[Nonparametric Tests]=>[K Related Samples]。在显示的主对话框中, 选择[Test Type] 栏中的[Friedman] 、[Kendall’s W] 和Cochran’s Q]。单击[OK]按钮。
(3)输出结果如所示:
实证研究 学习园地
国泰安信息技术有限公司
GTA Information Technology Company
第一部分 如何学习实证研究方法
第三章 掌握常用计量软件
对于实证研究初学者来说在掌握了基本知识和查阅了大量的文献之后,但是开始做实证研究不仅需要数据和方法,而且需要工具来检验实证研究的结果,如果工具不全,那么实证研究者也无法达到收发自如。另外,实证研究可能面对处理大量甚至海量的数据,这些对于实证研究初学者来说都是棘手的问题,随着计算机的发展,不同的处理软件的出现,帮助我们解决了这个问题。在实证金融会计领域中,目前常用的计量软件包括SAS、SPSS、Matlab、Eviews、Excel、Foxpro等。下面我们对于这几个常用的软件和实证研究的关系作简要的论述。
第一节 常见计量软件
一、SAS
SAS是美国SAS软件研究所研制的一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析和数据展现功能。尤其是创业产品统计分析系统部分,由于其具有强大的数据分析能力,一直为业界著名软件,在数据处理和统计分析领域,被誉为国际上的标准软件和最权威的优秀统计软件包,广泛应用于政府行政管理、科研、教育、生产和金融等不同领域,发挥着重要的作用。SAS系统中提供的主要分析功能包括统计分析、经济计量分析、时间序列分析、决策分析、财务分析和全面质量管理工具等等。
详细内容请登陆:http://www.sas.com/offices/asiapacific/china/查询。
二、SPSS
SPSS(Statistical Package for the Social Science)--社会科学统计软件包是世界是著名的统计分析软件之一。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的开发方向,从而确立了个人用户市场第一的地位。同时SPSS公司推行本土化策略,目前已推出9个语种版
本。SPSS/PC+的推出,极大地扩充了它的应用范围,使其能很快地应用于自然科学、技术科学、社会科学的各个领域,世界上许多有影响的报刊杂志纷纷就SPSS的自动统计绘图、数据的深入分析、使用方便、功能齐全等方面给予了高度的评价与称赞。目前已经在国内逐渐流行起来。它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。
详细内容请登陆:http://www.spss.com查询。
三、MatLab
Matlab软件是由美国Mathworks公司推出的用于数值计算和图形处理的科学计算系统,在MatLab环境下,用户可以集成地进行程序设计、数值计算、图形绘制、输入输出、文件管理等各项操作。它提供的是一个人机交互的数学系统环境,与利用c语言作数值计算的程序设计相比,利用Matlab可以节省大量的编程时间,且程序设计自由度大。最大的特点给用户带来的是最直观,最简洁的程序开发环境,语言简洁紧凑,使用方便灵活,库函数与运算符极其丰富,另外具有强大的图形功能。
在国际学术界,Matlab已经被确认为准确、可靠的科学计算标准软件,许多国际一流学术刊物上,都可以看到MATLAB的应用。
详细内容请登陆:http://www.mathworks.com查询。
四、EViews
EViews是美国GMS公司1981年发行第1版的Micro TSP的Windows版本,通常称为计量经济学软件包。EViews是Econometrics Views的缩写,它的本意是对社会经济关系与经济活动的数量规律,采用计量经济学方法与技术进行\观察\。计量经济学研究的核心是设计模型、收集资料、估计模型、检验模型、运用模型进行预测、求解模型和运用模型。EViews是完成上述任务得力的必不可少的工具。正是由于EViews等计量经济学软件包的出现,使计量经济学取得了长足的进步,发展成为实用与严谨的经济学科。使用 EViews软件包可以对时间序列和非时间序列的数据进行分析,建立序列(变量)间的统计关系式,并用该关系式进行预测、模拟等等。EViews。虽然 EViews是由经济学家开发的,并且大多数被用于经济学领域,但并意味着必须限制该软件包仅只用于处理经济方面的时间序列。EViews处理非时间序列数据照样得心应手。实际上,相当大型的非时间序列(截面数据)的项目也
能在 EViews中进行处理
详细内容请登陆:http://www.eviews.com/查询
五、Microsoft Excel
Microsoft Office是微软公司开发的办公自动化软件,Office 2000是第三代办公处理软件的代表产品,可以作为办公和管理的平台,以提高使用者的工作效率和决策能力。Office 2000是一个庞大的办公软件和工具软件的集合体,为适应全球网络化需要,它融合了最先进的Internet技术,具有更强大的网络功能;Office 2000中文版针对汉语的特点,增加了许多中文方面的新功能,如中文断词、添加汉语拼音、中文校对、简繁体转换等。Office 2000不仅 是您日常工作的重要工具,也是日常生活中电脑作业不可缺少的得力助手。
Excel是微软公司出品的Office系列办公软件中的一个组件,确切地说,它是一个电子表格软件,使用 Microsoft Excel 执行计算、分析信息并管理电子表格或 Web 页中的列表。Excel 应用程序可以协助我们进行财务、预算、统计、各种清单、数据跟踪、数据汇总、函数运算等计算量大的工作。
详细内容请登陆:http://r.office.microsoft.com/r/rlidAppFolder?clid=2052&p1=excel查询
六、Visual FoxPro
Visual FoxPro是Microsoft公司Visual Studio 系列开发产品之一,简称VFP,是Xbase数据库家族的最新成员,可以运行于Windows 9X/2000和Windows NT平台的32位的数据库开发系统。Visual FoxPro 提供了一个功能强大的集成化开发环境.Visual FoxPro使得用户管理数据库更加方便,组织数据、创建应用程序等工作更加快捷,另外,面向对象的编程工具、OLE支持和WEB服务能力,使开发程序更加完备。采用可视化和面向对象的程序设计方法,使数据管理和应用程序的开发更加简便。
详细内容请登陆:http://www.microsoft.com/查询
第二节 常用实证分析方法介绍
一、统计描述
在进行实证研究过程中往往会收集到大量的资料数据,但从这些杂乱无章的资料中,很难对其总体水平与分布状况做出评价判断。因此,必须采用一些适当的方法对这些资料进行处理,使之简约化、分类化、系统化,从中发现它们的分布规律,掌握总体的特征,以便对其水平做出客观的评价。
统计描述方法就是研究简缩数据并描述这些数据的统计方法。将搜集来的大量数据资料,加以整理、归纳和分组,简缩成易于处理和便于理解的形式,并计算所得数据的各种统计量,如平均数、标准差、以及描述有关事物或现象的分布情况、波动范围和相关程度等,以揭示其特点和规律。
统计描述常用的主要分两个方面的内容:(1)频数分布表分析(
Frequencies);
(2)统计描述分析(Descriptivesg);随着统计和计量软件的发展,目前已有许多软件块均可以完成描述性统计,如SPSS、SAS、 EVIEWS等等。下面以常用的SPSS软件为例介绍描述性统计的实现过程。
1.1.频数分布表分析( Frequencies)
频数分布表是描述性统计中最常用的方法之一,Frequencies过程就是专门为产生频数表而设计的。它不仅可以产生详细的频数表,还可以按要求给出某百分位点的数值,以及常用的条图,圆图等统计图。
1.1.1.界面说明
从SPSS的“Analyze”->“Descriptive Statistics”->“Frequencies”,进入频数分布表分析过程的主对话框,如图1.1所示:
图1.1频数分布表分析过程的主对话框
根据输出结果,p=0.297>α=0.05,所以接受零假设,即样本是随机的。 5.4.单样本柯尔莫哥诺夫—斯米尔诺夫检验(One-sample K-S test) 5.4.1.样本柯尔莫哥诺夫—斯米尔诺夫检验步骤
柯尔莫哥诺夫—斯米尔诺夫检验(Kolmogorov-Smirnov Test,简称K-S检验)用于检验一组样本观测结果的经验分布同某一指定的理论分布(如正态分布、均匀分布、泊松分布、指数分布)之间是否一致。K-S 检验的基本思路为:将顺序分类数据的理论累积频率分布同观测的经验累积频率分布加以比较,求出它们最大的偏离值,然后在给定的显著性水平上检验这种偏离值是否的偶然出现的。
设理论累积频数分布为F(x),n 次观测的随机样本的经验分布函数 Fn(x) ,K-S 检验的步骤如下:
(1)零假设H0:经验分布与理论分布没有显著差别。
(2)把样本观测值从小到大排列为: X(1)、X(2)?, X( n),并计算经验累积分布函数。 (3)作出判断。
5.4.2.样本柯尔莫哥诺夫—斯米尔诺夫检验案例分析 例:检验游程检验案例中的样本数据是否来自正态总体。 解:(1)在SPSS 中输入数据(变量名为X),选择[Analyze]=>[NonparametricTests]=>[1-Sample K-S]。
(2)在[One-Sample Kolmogorov-Smirnov Test(单样本K-S 检验)]主对放大框中,把变量X 选入[Test Variable]列表框中,并选择[Test Distribution(检验分布)]中的[Normal(正态分布)]。
图5.4 样本柯尔莫哥诺夫—斯米尔诺夫检验主对话框
(3)单击主对话框中的[OK]按钮,输出结果如下:
由结果:p=0.664>α,所以认为样本来自正态分布总体。 5.5.两个独立样本检验
5.5.1.两个独立样本检验的步骤
虽然有时样本所属的总体的分布类型往往是不明的,但我们还是想知道在这种情况下两个独立样本是否来自相同分布的总体,Mann-Whitney U检验、Kolmogorov-Smirnov Z 检验、Moses Extreme Reactions 检验和Wald-Wolfowitz 游程检验等就是用于处理此类问题的有效方法。其中Mann-Whitney U 检验是处理该问题中最常用的方法。这些方法的基本假设有:(1)随机抽样;(2)两个样本是独立的;(3)数据变量为定序变量或更高层次的变量。
Mann-Whitney U 检验又称为秩和U 检验,用于检验两个独立样本是否来自相同的总体
(与t 检验类似);Kolmogorov-Smirnov Z 检验,用于推测两个样本是否来自具有相同分布的总体;Moses extreme reactions 检验两个独立样本之观察值的散布范围是否有差异存在,以检验两个样本是否来自具有同一分布的总体;Wald-Wolfowitz 游程检验考察两个独立样本是否来自具有相同分布的总体。这些方法的检验步骤为:
(1)提出假设:
H0:两个独立样本来自相同的总体 H1:两个独立样本来自不同的总体 (2)计算相应检验统计量值或p 值
若p>α,接受H0,认为两个样本自来相同的总体;否则,拒绝H0,认为两个样本来自不同的总体。
5.5.2.两个独立样本检验实例分析
例:设有甲、乙两种安眠药,要比较它们的治疗效果。现独立观察20 个失眠者(其中10 人服用甲药,另10 人服用乙药),服用安眠药后睡眠时间延长的时数如表5.4所示。现延长的睡眠时数的分布情况不明,试问这两种药物的疗效有无显著性差异?
表5.4 服用甲、乙两种安眠药延长的睡眠时数表
序号 A B
1 1.9 0.7
2 0.8 -1.6
3 1.1 -0.2
4 0.1 -1.2
5 0.1 -0.1
6 4.4 3.4
7 5.5 3.7
8 1.6 0.8
9 4.6 0.0
10 3.4 2.0
操作步骤:
(1)录入数据。服用安眠药后时间延长的变量为Y,用变量G 表示所对应的实验组,G=1 表示失眠者服用甲药组别,G=2 表示失眠者服用乙药组别。
(2) 选择主菜单[Analyze]=>[Nonparametric Tests]=>[2 IndependentSamples]。在[Test Type(检验类型)]中选择四种检验方法。把Y 选入[TestVariable]列表框,把G 选入[Grouping Variable]并单击[Define Groups(定义组)]按钮。在定义组对话框中[Group 1]的右框中输入1,在[Group 2]的右框中输入2,并单击[Continue]返回主对话框。
图5.5 两个独立样本检验主对话框
(3)单击主对话框中的[OK]按钮,输出结果如下:
Two-Sample Kolmogorov-Smirnov Test
因四种方法计算出来的p 值均大于0.05,所以可以认为这两种药物的疗效无显著性的差异。
5.6.多个独立样本检验
多个独立样本检验方法主要有:Kruskal-Wallis H 检验、中位数(Median)检验和Jonckheere-Terpstra 检验。Kruskal-Wallis H 检验为单向方差分析,检验多个样本在中位数上是否有差异;中位数检验法用于检验多个样本是否来自具有相同中位数的总体;Jonckheere-Terpstra 检验法用于检验多个独立样本是否来自相同总体,它适用于定量数据和定序分类数据,当要检验的多个总体是定序变量时,Jonckheere-Terpstra 检验法比Kruskal-Wallis H 检验法更为有效。
例:消费者协会采用1 到20 分来评价四家冷藏食品公司的油炸鸡。他们相求出这些公司的鸡在质量上是否有所不同。表5.5给出了四家公司的评价。(α=0.05)
表5.5 四家冷藏食品公司的油炸鸡评分表
公司 A B C D
评分Y 2 2 5 6 10 18 19 16 20 12 18 18 15 17 12 14 12 11 4 1 3 8 7 8 9
G 1 2 3 4
解:(1)变量Y 表示评分,G 表示相应的公司。在SPSS 中录入数据
(2)选择[Analyze]=>[Nonparametric Tests]=>[K Independent Samples]。在对话框中,在[Test Type]中选择[Kruskal-Wallis H]和[Median];把Y 选入[Test Variable];把G 选入
0 1 0
6 19 11
0 1 1
18 22 20
1 0
18 11
在SPSS 中估计参数步骤如下:
(1)在SPSS 中录入上表中数据(变量为Y 和X),并保存数据文件;在主菜单中选择[Analyze]=>[Regression]=>[Binary Logistic]。
(2)在[Logistic Regression]对话框中,选择Y 进入[Dependent]框作为因变量,选择X 进入
[Covariates]作为自变量(如图4.4所示)。单击[Method]的下拉菜单,SPSS 提供了7 种方法:
[Enter]:所有自变量强制进入回归方程;
[Forward: Conditional]:以假定参数为基础作似然比检验,向前逐步选择自变量; [Forward: LR]:以最大局部似然为基础作似然比检验,向前逐步选择自变量; [Forward: Wald]:作Wald 概率统计法,向前逐步选择自变量;
[Backward: Conditional]:以假定参数为基础作似然比检验,向后逐步选择自变量; [Backward: LR]:以最大局部似然为基础作似然比检验,向后逐步选择自变量; [Backward: Wald]:作Wald 概率统计法,向后逐步选择自变量。 本例选默认项[Enter]方法。
图4.4 Logistic Regression主对话框
(3)单击[Logistic Regression]对话框中的[Options]按钮,显示子对话框如图4.5,在子
对话框中选择[Classification plots]和[Hosmer-Lemeshow等选项,并单击Continue]返回主对话框。
图4.5 Logistic Regression]对话框中的[Options]按钮子对话框
(4)单击主对话框中[OK]按钮,输出结果如下:
下面解释上面结果的一些常用的检验统计量: 1、-2 对数似然值(-2 log likelihood,-2LL)
似然(likelihood)即概率,特别是由自变量观测值预测因变量观测值的概率。与任何概率一样,似然的取值范围在0、1 之间。对数似然值(log likelihood,LL)是它的自然对数形式,由于取值范围在[0,1]之间的数的对数值负数,所以对数似然值的取值范围在0 至-∞之间。对数似然值通过最大似然估计的迭代算法计算而得。因为-2LL 近似服从卡方分布且在数学上更为方便,所以-2LL 可用于检验Logistic 回归的显著性。-2LL 反映了在模型中包括了所有自变量后的误差,用于处理因变量无法解释的变动部分的显著性问题,又称为拟合劣度卡方统计量(Badness-of-fit Chi-square)。当-2LL 的实际显著性水平大于给定的显著性水平α时,因变量的变动中无法解释的部分是不显著的,意味着回归方程的拟合程度越好。-
2、Cox 和Snell 的R2(Cox & Snell’s R-Square)
Cox 和Snell 的R2试图在似然值基础上模仿线性回归模型的R2解释Logistic 回归模型,但它的最大值一般小于1,解释时有困难。
3、Nagelkerke 的R2(Nagelkerke’s R-Square)
为了对Cox 和Snell 的R2 进一步调整,使得取值范围在0 和1 之间,Nagelkerke 把Cox和Snell 的R2 除以它的最大值。
4、Hosmer 和Lemeshow 的拟合优度检验统计量(Hosmer and Lemeshow's Goodness of Fit
Test Statistic)
与一般拟合优度检验不同,Hosmer 和Lemeshow 的拟合优度检验通常把样本数据根据预测概率分为十组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer 和Lemeshow 的拟合优度检验统计量,简称H-L 拟合优度检验统计量),最后根据自由度为8的卡方分布计算其p 值并对Logistic 模型进行检验。如果该p 值小于给定的显著性水平α(如α=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果p 值大于α,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据。
5、Wald 统计量
同线性回归方程的参数显著性检验似,Wald 统计量用于判断一个变量是否应该包含在模型中,Wald 统计量近似服从于自由度等于参数个数的卡方分布。判断变量是否显著类似于线性回归。
五、非参数检验
非参数检验,是不依赖总体分布的统计推断方法,是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数而得名。这类方法的假定前提比参数检验方法少得多。也容易满足,适用于计量信息较弱的资料且计算方法也简单易行,所以在实际中有广泛的应用。
下面以SPSS为例介绍非参数检验的具体应用。在SPSS中,几乎所有的非参数分析方法都被放入了Nonparametric Tests菜单中,具体来讲有以下几种:
? Chi-square test:用卡方检验来检验变量的几个取值所占百分比是否和我们期望
的比例没有统计学差异。比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%,)。
?
Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,
也可以使连续性变量,然后按你给出的分界点一刀两断。
?
Runs Test:用于检验某变量的取值是否是围绕着某个数值随机地上下波动,该数
值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。
?
One-Sample Kolmogorov-Smirnov Test:采用柯尔莫诺夫-斯米尔诺夫检验来分析
变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。
? ?
Two-Independent-Samples Tests:即成组设计的两样本均数比较的非参数检验。 Tests for Several Independent Samples:成组设计的多个样本均数比较的非参
数检验,此处不提供两两比较方法。
5.1.卡方检验(Chi-square test) 5.1.1.卡方检验步骤
假设一个定性变量Y 具有k 个可能取值或有k 种分类(标为1,2,.,k),Y 的概率分布自然地由概率函数P(Y=i)(i=1,2,.,k)所确定。现在要考查已观察到的一组样本(容量为n)与某确定的分布G 拟合的程度,相当于研究P(Y=i)(i=1,2,.,k)与G 之间的差异,看这个差异是否属于偶然变异,根据原假设认为差异是偶然变异所致这样的原则,卡方检验的步骤如下:
1、提出假设
H0:P(Y=i)=Gi (i=1,2,.,k ,Gi 为G 分布) H1:P(Y=i)≠Gi 2、构造统计量
?Q?Ei???2?2??i?k?1?
ki?12Ei其中,Qi 为观测频数,期望频数i Ei?nk
3、作出判断
如果?2????2k?1?) 或p<α,则拒绝零假设。 5.1.2.卡方检验的实现
例:掷一颗六面体300 次,结果如表5.1所示,试问这颗六面体是否均匀?(α=0.05)
表5.1掷一颗六面体点数观测频数表
点数i 观测频数Qi 1 43
2 49
3 56
4 45
5 66
6 41
解:(1)定义变量名为Y,取值为1、2、3、4、5、6,分别代表六面体的六个点,在SPSS 中输入数据。
(2)选择主菜单[Analyze]=>[Nonparametric Tests]=>[Chi-square]
(3)在显示的[Chi-square Test(卡方检验)]主对话框中,把Y 选入[TestVariable]作为检验变量(如下图5.1):
图5.1卡方检验主对话框
(4)单击[OK]后,输出结果如下:
这里的Asymp. Sig. ( The significance level based on the asymptoticdistribution of a test statistic)是基于卡方统计量的渐近分布的实际显著性水平( 渐近p 值), 它以数据集为一个大样本的假设为基础。因为p=0.111>α=0.05,所以认为该六面体是均匀的。
5.2.二项分布检验(Binomial Test) 5.2.1.二项分布检验步骤
实际问题中,有许多总体是由二项式组成的。例如,是与非、男与女、正面与背面、正确与错误等等。这种总体通常就称为二项总体。对于一个二项总体,如果其中的一类所占所占比重为P,则另一类的比重一定是Q=1-P。在既定总体中,P 是一个定值。然而,从该总体中任意抽取一个随机样本,所得到的样本比率P,却是一个随机变量。因为样本仅是总体的一小部分,基于样本得到的信息P,不会刚好等于总体的P,二者之间难免出现误差,这种误差称为抽样误差。理论上已经证明,二者之间出现较小误差的概率比较大,而出现较大误差的概率相对来说就比较小,这就是通常所说的“小概率不可能出现”的原理。当研究对象属于二项总体时,可以用二项分布来检验假设,判断所抽取的样本是否来自具有既定值的总体。其检验步骤如下:
1.提出假设
H0:P=Pt (0≤Pt≤1) H1:P≠Pt 2、计算统计量值和p 值
3、根据p 值作出统计判断。 5.2.2.二项分布检验实现
例:掷一枚球类比赛用的挑边器40 次,出现A 面和B 面在上的次数如下表5.2所示,试问这枚挑边器是否均匀?
表5.2 掷挑边器A 面和B 面在上的次数表
1 0 1 1 0 1 1 1 1 0 1 1 0 1 0 1 0 1 1 1 0 1 1 0 1 1 1 1 0 1 1 1 0 1 1 0 1 1
其中:0 表示A 面向上,1 表示B 面向上。
解:(1)在SPSS 中输入上表中的数据(变量名为Y)。选择主菜单的[Analyze]=> [Nonparametric Tests]=> [Binomial Test]。
(2)显示如图5.2所示的[Binomial Test(二项检验)]主对话框,把Y选入[Test Variable],其它选项采用默认值。
图5.2二项检验主对话框
(3)单击主对话框中的[OK]按钮,输出结果如下:
5.3.游程检验(Run Test) 5.3.1.游程检验的原理与步骤
游程检验是一种利用游程的总个数来判断样本随机性的统计检验方法。所谓游程,就是
指在样本单位的抽取序列中,某一类型的单位被另一类型单位在其前后隔开所形成的一个连续串。例如,令X1、X2?Xn为样本容量n 的一个随机样本的观察值,假设它存在两种不同类型的单位,一类记为A,另一类记为B。这样,当将其按任何顺序排列时,可以得到一个由A和B两种元素组成的序列。形成的序列有如下几种可能的典型方式(假设A 的单位数为N1=8,B 的单位数为N2=7 ):
第一种情况:AAAAAAAABBBBBBB; 第二种情况:AAAABBBBAAAABBB; 第三种情况:ABBAAABABBBABAA; 第四种情况:ABABABABABABABA。
在第一种情况中,A 的游程数为 R1 =1,B 的游程数为 R2 =1; 在第二种情况中,A 的游程数为 R1 =2,B 的游程数为R2 =2; 在第三种情况中,A 的游程数为R1 =5,B 的游程数为 R2 =4; 在第四种情况中,A 的游程数为 R1=8,B 的游程数为 R2 =7。
设R 为总游程数,R=R1+R2 。在第一种情况中,R=1+1=2;第二种情况下,R=2+2=4;第三种情况中,R=5+4=9;第四种情况中,R=8+7=15。显然,R 的最小值为2,最大值在N1≠N2 时,为Min(N1,N2)+1, 在N1=N2 时,为N1+N2。
游程检验的基本原理是这样的:如果我们希望从总体的一个样本所包含的信息中得出关于该总体的某些结论,或是要判别两个样本是否来自同一个总体,那么所采用的样本必须是随机样本。游程检验法使得我们能够检验“样本是随机的”这一假设。在任一既定大小的样本中,游程总数标志着样本是否是随机样本。如果游程总数太少,例如上述的第一、第二两种情况,它意味着样本中包含着某种主观的带有倾向性的因素,缺乏独立性,因此,肯定不是随机的样本。同理,如果游程总数太多,达到最大值,例如上述的第四种情况,也同样有理由认为这是由于有系统的短周期波动影响着观察的结果。也就是说,游程总数太少或太多的样本序列绝对不是随机的序列。为了知道R 是否太少或太多,即检验样本序列的随机性,必须了解游程总数R 的概率分布。实际检验步骤如下:
(1)提出假设 H0:样本是随机的; H1:样本不是随机的。 (2)构造统计量并计算p 值
用于把样本数据分成两类(A 和B)的分割点可以是指定的某个具体数值,也可以是均
值、中位数、众数等。当Xi >分割点时设为A 类,否则为B 类,其相应的单位数分别为N1 和N2 。在大样本情况下,游程总数R的分布接近于正态分布。
(3)作出判断
5.3.2.游程检验检验实例分析
例:假设从总体中抽取一个样本,记录其先后出现的样本值如表5.3,试利用游程检验法来检验样本序列的随机性。(α=0.05)
表5.3从总体中抽取样本值统计表
31 23 36 43 51 44 12 26 43 75 2 15
18
78
24
13
27
86
61
13
7
6
解:(1) 在SPSS 中输入数据( 变量名为X), 然后选择主菜单[Analyze]=>[Nonparametric Tests]=>[Runs];
(2)在显示的[Runs Test(游程检验)]主对话框中,把变量X 选择入[TestVariable(检验变量)]列表框中,并采用默认的分割点(Cut point):中位数(Median)。
图5.3游程检验主对话框
(3)单击主对话框中[OK]按钮,输出结果如下:
3 8