实验9 sas4(2)

2018-11-24 16:26

set sasuser.gpa; dmv = satm - satv; keep dmv; run;

proc univariate data=new; var dmv; run;

结果(部分)如下:

其中的位置检验(Tests for Location:Mu0 = 0)部分是假设检验问题H0:?=0??Ha:? ? 0的检验结果。第一个检验为t检验(Student's t),需要假定差值变量服从正态分布,检验的p值Pr>|t|<.0001,这个检验在0.05水平下是显著的,所以可认为两科分数有显著差异。第二个检验(Sign)是叫做符号检验的非参数检验,其p值为Pr>=|M|<.0001,在0.05水平下也是显著的,结论不变。第三个检验(Sgned Rank)是叫做符号秩检验的非参数检验,其p值为Pr>=|S|<.0001,在0.05水平下是显著的,结论不变。所以这三个检验的结论都是两科成绩有显著差异。

如果t检验对立假设是单边的,其p值算法与上面讲的两样本t检验p值算法相同。 注意:虽然SAS给了三个检验结果,我们在作结论时只用其中一个。如果可以认为差值变量服从正态分布则只要看t检验结果。否则只要看符号秩检验结果。只有在数据为两两比较的大小结果而没有具体数值时符号检验才有用。对于其他的统计检验问题我们也是遵照如此的原则:有多种方法可用时要根据对统计知识的理解选出最合适的一个。

在SAS/INSIGHT中比较成对样本均值的显著差异,同样是先计算两变量的差值变量。在“Edit-Variables-Other”菜单中,指定两个变量,指定两个变量间的计算为减法,则可以生成差值变量,可以用数据窗口菜单的“Define Variables”改变量名。然后对此差值变量选“Analyze-Distribution”,选“Tables-Tests for Location”就可以在分布窗口显示这三个检验的结果。

Analyst中成对t检验十分方便,不需要自己计算差值变量,只要选菜单“Statistics-Hypothesis Tests - Two-Sample Paired t-test for Means”,在弹出的对话框中给出第一组变量名SATM,第二组变量名SATV,就可以进行成对t检验。这里除了可以作双边检验以

外还可以作单边检验,见图4-2。 98

图4-2 Analyst的成对t检验对话框

4.2 回归分析

本节先讲述如何用SAS/INSIGHT进行曲线拟合,然后进一步讲如何用SAS/INSIGHT进行线性回归,简单介绍SAS/INSIGHT的广义线性模型拟合,最后介绍如何用编程进行回归分析。

4.2.1 用SAS/INSIGHT进行曲线拟合

两个变量Y和X之间的相关关系经常可以用一个函数来表示,一元函数可以等同于一条曲线,实际工作中经常对两个变量拟合一条曲线来近似它们的相关关系。最基本的“曲线”是直线,还可以用多项式、样条函数、核估计和局部多项式估计曲线。其模型可表示为:

Y?f(X)??

例如,我们要研究SASUSER.CLASS数据集中学生体重与身高之间的相关关系。为此,我们可以先画出两者的散点图(Analyze - Scatter plot)。从图中可以看出,身高越高的人一般体重越重。我们可以把体重作为因变量、身高作为自变量拟合一条回归直线,只要选“Analyze Fit (Y X)”,并选体重为Y变量,身高为X变量,即可自动拟合出一条回归直线,见图4-3。窗口中还给出了拟合的模型方程、参数估计、诊断信息等,我们在下一小节再详细介绍。

图4-3 身高对体重的散点图及回归直线

在拟合了直线后,为拟合多项式曲线,只要选“Curves - Polynomial”,然后输入阶次(Degree(Polynomial)),就可以在散点图基础上再加入一条多项式曲线。对于本例,我们看到二次多项式得到的曲线与直线差别很小,所以用二次多项式拟合没有优势。还可以试用三

99

次、四次等多项式。为了改变阶次还可以使用拟合窗口中的多项式阶次滑块(Parametric Regression Fit中的Degree(Polynomial))。这里我们试着增大多项式阶可以发现取太高阶的多项式得到的模型并不合理。

样条曲线是一种非参数回归的曲线拟合方法。光滑样条为分段的三次多项式,曲线在每一段内是一个三次多项式,在两段的连接点是连续、光滑的。为拟合样条曲线,只要选“Curves Spline”,使用缺省的GCV准则(广义交叉核实)来选取光滑系数(光滑系数c越大,得到的曲线越光滑,但拟合同时变差,光滑系数c小的时候得到的曲线较曲折,而拟合较好),就可以在散点图的基础上画出样条曲线。可以用光滑系数c的滑块来调整曲线的光滑程度/拟合优度。对于本例,GCV准则得到的样条曲线与回归直线几乎是重合的,说明直线拟合可以得到满意的结果。

核估计是另一种非参数回归的曲线拟合方法。它定义了一个核函数K(x),例如使用标准正态分布密度曲线作核K(x),然后用如下公式估计经验公式f(x):

?(x)?K(x?Xi)Y f?ii?1N? 其中?为光滑系数,?越大得到的曲线越光滑。为了画核估计曲线,只要选“Curves -

Kernel”,核函数使用缺省的正态核,选取光滑系数的方法采用缺省的GCV法,就可以把核估计图附加到散点图上。本例得到的核估计曲线与回归直线、样条曲线有一定差别。可以手动调整光滑系数c的值,可以看到,当c过大时曲线不仅变光滑而且越来越变水平,因为这时的拟合值基本是一个常数,这与样条曲线的情形不同,样条曲线当c增大时曲线变光滑但不趋向与常数(水平线)。

局部多项式估计(Loess)是另一种非参数回归的曲线拟合方法。它在每一自变量值处拟合一个局部多项式,可以是零阶、一阶、二阶,零阶时与核估计相同。SAS/INSIGHT缺省使用一阶(线性)局部多项式。改变Loess的系数alpha可以改变曲线的光滑度。alpha增大时曲线变光滑,而且使用一阶或二阶多项式时曲线不会因为加大alpha而变水平。 固定带宽的局部多项式是另一种局部多项式拟合方法。它有一个光滑系数c。

4.2.2 用SAS/INSIGHT进行线性回归分析

上面我们已经看到,用菜单“Analyze - Fit (Y X)”就可以拟合一条回归直线,这是对回归方程

y?a?bx??

的估计结果。这样的线性回归可以推广到一个因变量、多个自变量的情况。线性模型写成矩阵形式为

Y?X???

其中Y为n?1向量,X为n?p矩阵,一般第一列元素全是1,代表截距项。?为p?1未知参数向量,?为n?1随机误差向量,元素独立且方差为相等的?2(未知)。正常情况下,系 100

??(X'X)?1X'Y,拟合值(或称预报值)为Y??X(X'X)?1X'Y?HY,其中数的估计为?H?X(X'X)X'是Rn空间内向X的列张成的线性空间?(X)投影的投影算子矩阵,叫做“帽

?i??(I?H)Y,残差平方和为EES??子”矩阵。拟合残差为??'???Yi?Y??Y?Yi?1n??2,

误差项方差的估计(要求设计阵X满秩)为均方误差(MSE)s2?MSE?1ESS,在n?p?和s2分别是?和?2的无偏估计,系数估计的方差阵线性模型的假设下,若设计阵X满秩,??)??2(X'X)?1。判断回归结果优劣的一个重要指标为复相关系数平方(决定系数)Var(?nESS?i)2)(其中TSS??(Yi?Y,它代表在因变量的变差中用模型能够解释的部R?1?TSSi?12分的比例,所以R2越大说明模型越好。

例如,我们在“Fit(Y X)”的选择变量窗口选Y变量(因变量)为体重(WEIGHT),选X变量(自变量)为身高(HEIGHT)和年龄(AGE),则可以得到体重对身高、年龄的线性回归结果。下面对基本结果进行说明。 回归基本模型:

回归模型方程:

拟合概况:

其中Mean of Response为因变量(Response)的均值,Root MSE叫做根均方误差,是均方误差的平方根,R-Square即复相关系数平方,Adj R-Sq为修正的复相关系数平方,其公式

?2?1?为Rn?i(1?R2),其中i当有截距项时取1,否则取0,这个公式考虑到了自变量n?p?2则因个数p的多少对拟合的影响,原来的R2随着自变量个数的增加总会增大,而修正的R

101

?2不一定增大,便于不同自变量个数的为p对它有一个单调减的影响所以p增大时修正的R模型的比较。

方差分析表:

这是关于模型是否成立的最重要的检验。它检验的是H0:模型中所有斜率项系数都等于零,这等价于说自变量的线性组合对因变量没有解释作用。它依据的是一个标准的方差分解,把因变量的总离差平方和(C Total)分解为能用模型解释的部分(Model)与不能被模型解释的误差平方和(随机误差,Error)两个部分,如果能解释的部分占的比例大就否定H0。F统计量(F Stat)就是用自由度修正过的两部分的比值。从上面结果看我们这个模型很显著(p值不超过万分之一),所以可以否定H0,模型是有意义的。 第三类检验:

这个表格给出了对各斜率项是否为零(H0:?j = 0)的检验结果。检验利用的是所谓第三类平方和(Type III SS),又叫偏平方和,它代表在只缺少了本变量的模型中加入本变量导致的模型平方和的增加量。比如,HEIGHT的第三类平方和即现在的模型平方和与不包含变量HEIGHT的模型计算的模型平方和之差。第三类平方和与模型中自变量的次序无关,一般也不构成模型平方和的平方和分解。表中用F统计量对假设进行了检验,分子是第三类平方和的均方,分母为误差的均方。实际上,当分子自由度为1时,F统计量即通常的t检验统计量的平方。从表中可见,身高的作用是显著的,而年龄的作用则不显著,有可能去掉年龄后的模型更好一些。

参数估计及相关统计量:

对截距项系数和各斜率项系数,给出了自由度(DF),估计值(Estimate),估计的标准

t统计量的p值,误差(Std Error),检验系数为零的t统计量,检验共线性的容许度(Tolerance)

和方差膨胀因子(Var Inflation)。其中自变量Xi的容许度定义为1减去Xi对其它自变量的复相关系数平方,因此容许度越小(接近0),说明Xi对其它自变量的复相关系数平方大,即Xi可以很好地被其它自变量的线性组合近似,这样Xi在模型中的作用不大。记C =

?)??2c,cii叫做方差膨胀因子,它代表Xi的系数估计的方差的比(cij)n?n=(X'X)-1,则Var(?iii例系数,显然其值越大说明估计越不准确,也说明Xi在模型中的作用不大。方差膨胀因子与

102


实验9 sas4(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:GIS考试复习题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: