0 1 0
6 19 11
0 1 1
18 22 20
1 0
18 11
在SPSS 中估计参数步骤如下:
(1)在SPSS 中录入上表中数据(变量为Y 和X),并保存数据文件;在主菜单中选择[Analyze]=>[Regression]=>[Binary Logistic]。
(2)在[Logistic Regression]对话框中,选择Y 进入[Dependent]框作为因变量,选择X 进入
[Covariates]作为自变量(如图4.4所示)。单击[Method]的下拉菜单,SPSS 提供了7 种方法:
[Enter]:所有自变量强制进入回归方程;
[Forward: Conditional]:以假定参数为基础作似然比检验,向前逐步选择自变量; [Forward: LR]:以最大局部似然为基础作似然比检验,向前逐步选择自变量; [Forward: Wald]:作Wald 概率统计法,向前逐步选择自变量;
[Backward: Conditional]:以假定参数为基础作似然比检验,向后逐步选择自变量; [Backward: LR]:以最大局部似然为基础作似然比检验,向后逐步选择自变量; [Backward: Wald]:作Wald 概率统计法,向后逐步选择自变量。 本例选默认项[Enter]方法。
图4.4 Logistic Regression主对话框
(3)单击[Logistic Regression]对话框中的[Options]按钮,显示子对话框如图4.5,在子
对话框中选择[Classification plots]和[Hosmer-Lemeshow等选项,并单击Continue]返回主对话框。
图4.5 Logistic Regression]对话框中的[Options]按钮子对话框
(4)单击主对话框中[OK]按钮,输出结果如下:
下面解释上面结果的一些常用的检验统计量: 1、-2 对数似然值(-2 log likelihood,-2LL)
似然(likelihood)即概率,特别是由自变量观测值预测因变量观测值的概率。与任何概率一样,似然的取值范围在0、1 之间。对数似然值(log likelihood,LL)是它的自然对数形式,由于取值范围在[0,1]之间的数的对数值负数,所以对数似然值的取值范围在0 至-∞之间。对数似然值通过最大似然估计的迭代算法计算而得。因为-2LL 近似服从卡方分布且在数学上更为方便,所以-2LL 可用于检验Logistic 回归的显著性。-2LL 反映了在模型中包括了所有自变量后的误差,用于处理因变量无法解释的变动部分的显著性问题,又称为拟合劣度卡方统计量(Badness-of-fit Chi-square)。当-2LL 的实际显著性水平大于给定的显著性水平α时,因变量的变动中无法解释的部分是不显著的,意味着回归方程的拟合程度越好。-
2、Cox 和Snell 的R2(Cox & Snell’s R-Square)
Cox 和Snell 的R2试图在似然值基础上模仿线性回归模型的R2解释Logistic 回归模型,但它的最大值一般小于1,解释时有困难。
3、Nagelkerke 的R2(Nagelkerke’s R-Square)
为了对Cox 和Snell 的R2 进一步调整,使得取值范围在0 和1 之间,Nagelkerke 把Cox和Snell 的R2 除以它的最大值。
4、Hosmer 和Lemeshow 的拟合优度检验统计量(Hosmer and Lemeshow's Goodness of Fit
Test Statistic)
与一般拟合优度检验不同,Hosmer 和Lemeshow 的拟合优度检验通常把样本数据根据预测概率分为十组,然后根据观测频数和期望频数构造卡方统计量(即Hosmer 和Lemeshow 的拟合优度检验统计量,简称H-L 拟合优度检验统计量),最后根据自由度为8的卡方分布计算其p 值并对Logistic 模型进行检验。如果该p 值小于给定的显著性水平α(如α=0.05),则拒绝因变量的观测值与模型预测值不存在差异的零假设,表明模型的预测值与观测值存在显著差异。如果p 值大于α,我们没有充分的理由拒绝零假设,表明在可接受的水平上模型的估计拟合了数据。
5、Wald 统计量
同线性回归方程的参数显著性检验似,Wald 统计量用于判断一个变量是否应该包含在模型中,Wald 统计量近似服从于自由度等于参数个数的卡方分布。判断变量是否显著类似于线性回归。
五、非参数检验
非参数检验,是不依赖总体分布的统计推断方法,是指在总体不服从正态分布且分布情况不明时,用来检验数据资料是否来自同一个总体假设的一类检验方法。由于这些方法一般不涉及总体参数而得名。这类方法的假定前提比参数检验方法少得多。也容易满足,适用于计量信息较弱的资料且计算方法也简单易行,所以在实际中有广泛的应用。
下面以SPSS为例介绍非参数检验的具体应用。在SPSS中,几乎所有的非参数分析方法都被放入了Nonparametric Tests菜单中,具体来讲有以下几种:
? Chi-square test:用卡方检验来检验变量的几个取值所占百分比是否和我们期望
的比例没有统计学差异。比如我们在人群中抽取了一个样本,可以用该方法来分析四种血型所占的比例是否相同(都是25%),或者是否符合我们所给出的一个比例(如分别为10%、30%、40%和20%,)。
?
Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,
也可以使连续性变量,然后按你给出的分界点一刀两断。
?
Runs Test:用于检验某变量的取值是否是围绕着某个数值随机地上下波动,该数
值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。
?
One-Sample Kolmogorov-Smirnov Test:采用柯尔莫诺夫-斯米尔诺夫检验来分析
变量是否符合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。
? ?
Two-Independent-Samples Tests:即成组设计的两样本均数比较的非参数检验。 Tests for Several Independent Samples:成组设计的多个样本均数比较的非参
数检验,此处不提供两两比较方法。
5.1.卡方检验(Chi-square test) 5.1.1.卡方检验步骤
假设一个定性变量Y 具有k 个可能取值或有k 种分类(标为1,2,.,k),Y 的概率分布自然地由概率函数P(Y=i)(i=1,2,.,k)所确定。现在要考查已观察到的一组样本(容量为n)与某确定的分布G 拟合的程度,相当于研究P(Y=i)(i=1,2,.,k)与G 之间的差异,看这个差异是否属于偶然变异,根据原假设认为差异是偶然变异所致这样的原则,卡方检验的步骤如下:
1、提出假设
H0:P(Y=i)=Gi (i=1,2,.,k ,Gi 为G 分布) H1:P(Y=i)≠Gi 2、构造统计量
?Q?Ei???2?2??i?k?1?
ki?12Ei其中,Qi 为观测频数,期望频数i Ei?nk