实验9 sas4(4)

2018-11-24 16:26

各列分别为观测序号(Obs)，因变量的值(Dep Var)，预测值(Predicted Value)，预测值的期望值的标准误差(Std Error Mean Predict)，预测值的95%置信区间(95% CL Predict)，残差(Residual，为因变量值减预测值)。在表后又给出了残差的总和(Sum of Residuals)，残差平方和(Sum Of Squared Residuals)，预测残差的平方和(Predicted Resid SS(Press))。所谓预测残差，是在计算第i号观测的残差时从实际值中减去的预报值是用扣除第i号观测后的样本得到的模型产生的预报值，而不是我们一般所用的预测值(实际是拟合值)。第i号样本的预测残差还可以用公式PRESSIDi＝RESIDi/(1-hi)来计算，其中RESIDi是第i个残差，hi为帽子矩阵H的第i个主对角线元素。

用print cli列出的是预测值的置信区间，还可以列出模型均值的置信区间，使用

print clm; run;

语句。在PRINT语句中可以指定的有ACOV，ALL，CLI，CLM，COLLIN，COLLINOINT，COOKD，CORRB，COVB，DW，I，INFLUENCE，P，PARTIAL，PCORR1，PCORR2，R，SCORR1，SCORR2，SEQB，SPEC，SS1，SS2，STB，TOL，VIF，XPX，等等。

对于自变量是一元的情况，可以在自变量和因变量的散点图上附加回归直线和均值置信界限。比如，

plot weight*height/conf95; run;

可以产生图4-10，在图的上方列出了模型方程，右方还给出了观测个数、R2、修正的R2、根均方误差。在PLOT语句中可以使用“PREDICTED.”、“RESIDUAL.”等特殊名字表示预测值、残差等计算出的变量，比如，在自变量为多元时无法作回归直线，常用的诊断图表为残差对预测值图，就可以用

plot residual. * predicted.; run;

108

绘制。为了绘制学生化残差的图形，可以用

plot rstudent. * obs.; run;

图4-10 REG过程绘图

回归分析的其它用法及进一步的诊断方法请参考有关统计书籍和SAS使用手册。

4.2.5 用Analyst进行回归分析

我们可以用Analyst的图形界面调用回归分析功能。“Statistics-Regression”菜单提供了三种回归：一元回归、线性回归和Logistic回归。一元回归可以是通常的一元线性回归，也可以拟合二次或三次多项式。线性回归可以完成REG过程的大部分功能。

我们以SASUSER.CLASS数据集为例。选了“Statistics-Regression-Linear”之后出现如图4-11的对话框，要指定因变量和自变量。这个对话框的Model按钮可以指定模型选择方法及具体选择方法的细节。Statisics按钮可以要求输出与模型拟合优度和模型诊断有关的统计量。Predictions可以要求计算对数据集中各观测的预测值、残差值、预测界限，也可以指定一个包含模型自变量的数据集要求对其进行预测。Plots可以要求画各种回归诊断图形，如残差图、杠杆图等。Save Data可以把指定的结果保存到数据集中。

图4-11 Analyst：线性回归

109

4.3 方差分析入门

统计学中用方差分析来研究分类变量(所谓)对数值型变量(所谓“因素”“指标”)的影响。主要目的是研究某些因素对于指标有无显著的影响。对有显著影响的因素，一般希望找出最好水平。

4.3.1 用ANOVA过程进行单因素方差分析

单因素方差分析是4.1.2问题的一个自然延续。在4.1.2中，我们有一个分类变量把观测分为两组，我们要研究这两组的均值有没有显著差异。如果这个分类变量的取值不只两个，则这时4.1.2的检验方法不再适用，但我们同样要回答各组均值是否有显著差异的问题。如果各组之间有显著差异，说明这个因素(分类变量)对指标是有显著影响的，因素的不同取值(叫做水平)会影响到指标的取值。

例如，数据集SASUSER.VENEER是关于若干种牌子的胶合板的耐磨情况数据，变量BRAND为试样的牌子，变量WEAR为试样的磨损量。共有五种牌子的胶合板，每种试验了4个试样。我们希望知道这五种牌子胶合板的磨损量有无显著差别，如果无显著差别我们在选购时就不必考虑哪一个更耐磨而只需考虑价格等因素，但结果有显著差异则应考虑使用耐磨性好的牌子。这里，因素是胶合板的牌子，指标为磨损量，当各种牌子胶合板磨损量有显著差异时，说明因素的取值对指标有显著的影响。所以，方差分析的结论是因素对指标有无显著影响。注意，经典的方差分析只判断因素的各水平有无显著差异，而不管两个水平之间是否有差异，比如说我们的五个牌子即使有四个牌子没有显著差异，只有一个牌子的胶合板比这四个牌子的都好，结论也是说因素是显著的，或因素的各水平间有显著差异。

方差分析把指标的方差分解为由因素的不同取值能够解释的部分，和剩余的不能解释的部分，然后比较两部分，当能用因素解释的部分明显大于剩余的部分时认为因素是显著的(因素对指标有显著影响)。方差分析假定观测是彼此独立的，观测为正态分布的样本，由因素各水平分成的各组的方差相等。在这些假定满足时，就可以用ANOVA过程来进行方差分析。其一般写法为

PROC ANOVA DATA=数据集; CLASS 因素； MODEL 指标=因素；

RUN;

比如，为了分析SASUSER.VENEER中各种牌子的胶合板的耐磨性有无显著差别，首先我们假定假设检验使用的检验水平为0.05，可以使用如下程序进行方差分析：

proc anova data=sasuser.veneer; class brand; model wear=brand; run;

结果如下：

110

结果可以分为四个部分，第一部分是因素水平的信息，我们看到因素只有一个BRAND，它有5个水平，分别是ACME，AJAX，CHAMP，TUFFY，XTRA。共有20个观测。第二部分就是经典的方差分析表，表前面指明了因变量(指标)为WEAR，第一列“来源(Source)”说明方差的来源，是模型(Model)的(可以用方差分析模型解释的)，误差(Error)的(不能用模型解释的)，还是总和(Corrected Total)。第三列为平方和，其大小代表了各方差来源作用的大小。第二列为自由度。第四列为均方，即平方和除以自由度。第五列F值是F统计量的值，其计算公式为模型均方除以误差均方，用来检验模型的显著性，如果不显著说明模型对指标的变化没有解释能力。第六列是F统计量的p值。由于这里p值小于0.05(我们的检验水平)，所以模型是显著的，因素对指标有显著影响。结果的第三部分是一些与模型有关的简单统计量，第一个是复相关系数平方，与回归模型一样仍代表总变差中能被模型解释的比例，第二个是指标的变异系数，第三个是根均方误差，第四个是指标的均值。结果的第四部分是方差分析表的细化，给出了各因素的平方和及F统计量，因为是单因素所以这一行与上面的“模型”一行相同。

4.3.2 用NPARlWAY进行非参数单因素方差分析

当方差分析的正态分布假定或方差相等假定不能满足时，对单因素问题，可以使用称为Kruskal-Wallis检验的非参数方差分析方法。这种检验不要求观测来自正态分布总体，不要求各组的方差相等，甚至指标可以是有序变量(变量取值只有大小之分而没有差距的概念，比如磨损量可以分为大、中、小三档，得病的程度可以分为重、轻、无，等等)。 NPAR1WAY过程的调用与ANOVA过程不同，因为它是单因素方差分析过程，所以只要用CLASS语句给出分类变量(因素)，用VAR语句给出指标就可以了，一般格式为：

PROC NPAR1WAY DATA＝数据集 WILCOXON； CLASS 因素； VAR 指标；

RUN；

注意这样的语句格式与4.1.2中两独立样本比较的做法完全相同。NPAR1WAY过程当“因素”有两个水平时，执行Wilcoxon秩和检验，多个水平时执行Kruskal-Wallis检验。

比如，为了分析上面的胶合板例子中各牌子的耐磨性有无显著差异，取定0.10的检验水

111

平，可以用如下的NPAR1WAY过程：

proc npar1way data=sasuser.veneer Wilcoxon; class brand; var wear; run;

得到如下结果：

结果分为两个部分，第一部分是各组的秩和的情况，包括观测个数(N)、秩和(Sum of Scores)、在各组无显著差异的零假设下的期望秩和(Expected Under H0)、在零假设下的标准差(Std Dev Under H0)、平均秩(Mean Score，为秩和除以组内观测数)。所谓秩(Rank)就是从小到大排列的名次。下面的“Average scores were used for ties”是说当名次相同时(如两个第2名)用名次的平均值((2+3)/2=2.5)。第二部分为Kruskal-Wallis检验的结果，包括近似的X2统计量，自由度，检验的p值(Prob>Chi-Square)。现在p值0.0175小于预定的水平0.10所以结论是各种牌子的胶合板的耐磨性能有显著差异。注意，Kruskal-Wallis检验是非参数检验，在同等条件下非参数检验一般比参数检验的功效低，所以这里的p值0.0175比用ANOVA过程得到的p值0.0017要大。

4.3.3 多重比较

方差分析只检验各组是否没有任何两两之间的差异，但不检验到底是哪两组之间有显著差异。在三个或多个组之间进行两个或多个比较的检验叫做多重比较。多重比较在统计学中没有一个公认的解决方法，而是有若干种检验方法。因为多重比较要进行不只一次的比较，所以多重比较的检验水平有两种：总错误率(experimentwise error rate)和单次比较错误率(comparisonwise error rate)。总错误率是指所有比较(比如，五个组两两之间比较有10次)的总第一类错误概率，单次比较错误率是指每一次比较的第一类错误概率。显然，总错误率要比单次比较错误率高。

在ANOVA过程中使用MEANS语句可以进行多重比较。格式如下：

MEANS 因素/选项；如果不使用选项，则ANOVA过程内的MEANS语句只对因素的各水平计算指标的平均值和标准差，比如： 112

共7页:

实验9 sas4(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档