SAS讲义 - 第三十三课逐步回归分析(2)

2019-03-29 11:42

37722429.doc

商务数据分析

电子商务系列

剔除对模型贡献最小的变量。 4) stepwise(逐步回归,向前且向后)。逐步方法是向前选择的修正。对已在模型中的变量,不一定必须一直在模型中,这点与向前选择法是不同的。stepwise按照向前选择方法选入变量后,还考察模型中所包含的所有变量并剔除使得F 统计量的显著水平不在slstay=水平上的变量。只有在完成检验和必要的剔除之后,其他变量才可再进入模型。当模型外的变量没有一个使F 统计量的显著在slentry= 水平上且模型中的每个变量在slstay= 水平上显著,或加到模型中的变量是刚刚剔除的变量时候,逐步处理便结束了。

2

5) maxr(具有对偶切换的向前选择)。最大R 改良技术是占优势的逐步技术,它几乎与所有可能的回归一样好。不象上面三种技术,这个方法不是落在单个模型上,而是试着找出最佳一变量模型、最佳二变量模型等等,但它不能保证对每个量度都能找到具有最大R的模型。

maxr方法先找出一个产生最大R值的变量,然后再加入另一个次最大R值的变量,从而形成二变量的模型。形成二变量的模型之后,将模型中的变量与模型外的变量相比较,以决定是否移去一个变量而以另一个能生成更大R2 值的变量来代替。全部比较结束后,便得到了最佳二变量模型。依次往下,便得到最佳三变量模型等等。

6) minr(具有对偶搜索的向前选择)。最小R 增量法非常类似于maxr,只是选择准则为产生最小R2增量。对模型中一个已知的变量数,maxr和minr通常产生同样的“最佳”模型,但是minr在每步中考虑较多的模型。

7) rsquare(R选择法)。按给定样本的R大小准则选择最优的自变量子集,但不能保证对总体或其他样本而言是最优的。用户可以规定出现在子集中自变量的最大和最小个数及被选择的每种子集的个数。R选择法总能够对所考虑变量的每种变量个数找到具有最大R的模型,但需要很多的计算时间。 8) adjrsq(修正R2选择法)。该方法类似于rsquare法,只是对于选择模型使用的准则为修正R2统计量。修正公式见(32.27)式。

9) Mallows的Cp统计量。Cp统计量是由Mallows提出的作为选择模型的判别式的变量。Cp是一个误差平方总和的量度:

CP?ESSMSEp2

22

2

22

22

?(N?2P)

(33.11)

其中,P是模型中包括截距项的参数个数,MSE是满模型时均方误差,ESSp是具有P个自变量(包括截距项)回归模型的误差平方和。作Cp与P的曲线图,Matlows建议取Cp 首次接近P的地方的模型。

2. proc stepwise过程控制语句

stepwise过程一般由下列语句控制:

proc stepwise data=数据集;

model 因变量=自变量 ; weight 变量 ; by 变量 ; run ;

stepwise至少需要一个model语句。by语句和weight语句可以放在任何地方。

1) model语句的。stepwise中可以有任意多个model语句。model语句中的选

上海财经大学经济信息管理系IS/SHUFE

Page 6 of 12

37722429.doc

商务数据分析

电子商务系列

项如下:

? noint——不产生一般在模型中自动生成的截距参数。 ? none——请求全回归模型。

? forward或f——请求向前选择法。 ? backward或b——请求向后淘汰法。

? stepwise——请求逐步技术,这个任选项是预置的。 ? maxr——请求最大R2增量法。 ? minr——请求最小R2 增量法。 ? rsquare——请求R2最大准则法。 ? adjrsq——请求修正R最大准则法。 ? cp——请求Mallows的Cp统计量法。

? slentry= 值——指出向前选择和逐步技术中选择变量进入模型的显著水平。如果省略,那么stepwise过程便对向前选择技术置slentry= 0.5,对逐步技术置slentry=0.15。 ? slstay= 值——指出向后淘汰与逐步技术中变量留在模型里的显著水平。如果省略,则逐步技术用0.15,向后淘汰技术用0.10。

? include=n——强迫头n 个因变量总是在模型中。选择技术由model语句中其他变量来完成。

? start= s——以含有model语句中头s个自变量的模型为开始,进行比较、选择过程。理所当然地,没有一个被估计的模型含有不足s个的变量。此仅应用于maxr或minr模型。 ? stop= s——当它找到“最佳”s变量模型之后,stepwise便停止。其中s是stop的值,此仅应用于maxr或minr模型。 2) 其他语句

? weight语句——用于指出含有观察值的权数的变量。分析中仅用具有weight变量正值的观察。

? by语句——指定的变量值来分组处理某数据集。

2

六、 实例分析

例33.1 [例32.2续] 对fitness数据进行逐步回归分析。

调用reg过程,model语句中的参数选项使用selection=stepwise,请求按逐步回归方法挑选自变量子集。程序如下:

proc reg data= fitness ;

model oxygen = age weight rstpulse maxpulse runpulse runtime

/selection=stepwise ;

run ;

运行后,得到见表33.1所示的结果。

表33.1 逐步回归分析结果

上海财经大学经济信息管理系IS/SHUFE

Page 7 of 12

Stepwise Procedure for Dependent Variable OXYGEN Step 1 Variable RUNTIME Entered R-square = 0.74338010 C(p) = 13.51976469 37722429.doc DF Sum of Squares Mean Square F Prob>F Regression 1 632.90009985 632.90009985 84.01 0.0001 商务数据分析 Error 29 218.48144499 7.53384293 电子商务系列 Total 30 851.38154484 Parameter Standard Type II Variable Estimate Error Sum of Squares F Prob>F INTERCEP 82.42177268 3.85530378 3443.36654076 457.05 0.0001 RUNTIME -3.31055536 0.36119485 632.90009985 84.01 0.0001 Bounds on condition number: 1, 1 ------------------------------------------------------------------------------------------ Step 2 Variable AGE Entered R-square = 0.76424693 C(p) = 12.22493455 DF Sum of Squares Mean Square F Prob>F Regression 2 650.66573237 325.33286618 45.38 0.0001 Error 28 200.71581247 7.16842187 Total 30 851.38154484 Parameter Standard Type II Variable Estimate Error Sum of Squares F Prob>F INTERCEP 88.46228749 5.37263885 1943.41070877 271.11 0.0001 AGE -0.15036567 0.09551468 17.76563252 2.48 0.1267 RUNTIME -3.20395056 0.35877488 571.67750579 79.75 0.0001 Bounds on condition number: 1.036941, 4.147763 ------------------------------------------------------------------------------------------ Step 3 Variable RUNPULSE Entered R-square = 0.81109446 C(p) = 6.82780371 DF Sum of Squares Mean Square F Prob>F Regression 3 690.55085627 230.18361876 38.64 0.0001 Error 27 160.83068857 5.95669217 Total 30 851.38154484 Parameter Standard Type II Variable Estimate Error Sum of Squares F Prob>F INTERCEP 111.71806443 10.23508836 709.69013814 119.14 0.0001 AGE -0.25639826 0.09622892 42.28867438 7.10 0.0129 RUNPULSE -0.13090870 0.05059011 39.88512390 6.70 0.0154 RUNTIME -2.82537867 0.35828041 370.43528607 62.19 0.0001 Bounds on condition number: 1.354763, 11.59745 ------------------------------------------------------------------------------------------ Step 4 Variable MAXPULSE Entered R-square = 0.83681815 C(p) = 4.76608569 DF Sum of Squares Mean Square F Prob>F Regression 4 712.45152692 178.11288173 33.33 0.0001 在输出结果报告中,提供了进入回归变量逐次改变后回归方差分析和拟合的信息。在报告的最后部分,列出了用逐步回归法挑选自变量过程,四个自变量按runtime,age,runpulse,maxpulse 先后次序进人回归模型。所有进入回归的变量在0.15的水平下是显著的,未进人回归的侯选变量在0.15的水平下是不显著的。同时还概要地提供了每个回归模型变化时的R值增加值、R值、CP值、相应的F统计量、p值。在逐步回归的每步细节中,还列出了条件指数的最小值最大值,以及每一个回归变量的类型2平方和。age变量进入模型后,R2值的增加值(Partial R2,称为偏R2或部分R2)计算为(650.6657-632.9001)/ 851.3815=

上海财经大学经济信息管理系IS/SHUFE

Page 8 of 12

2

2

37722429.doc

商务数据分析

电子商务系列

0.020867。 如果按CP值选择最优子集,随着进入回归模型中的自变量个数P从2到5个(包括截距),相应CP值从大到小为13.51976469、12.22493455、6.82780371和4.76608569,按照Mallows提出的回归模型最优自变量个数的选择准则,CP=4.76608569是最接近自变量个数P=5的模型。CP的计算公式见(33.11)式,当P=5时,CP=138.93001792/5.39197-(31-2×5)= 4.76608569。因此,用逐步回归方法及CP值确认的拟合回归模型为:

oxygen= 98.14788797-0.19773470age + 0.27051297maxpulse-0.34810795runpulse

-2.76757879runtime

条件指数(condition number)为最大特征值和每个特征值之比的平方根。我们看到当模型进入第四个自变量maxpulse时,最大的条件指数从较小11.59745变成了较大76.85135,说明存在一定程度的共线性,根据前面例33.2的分析,我们诊断这个共线性方程可能为runpulse-maxpulse=0。

在向前、向后或逐步回归的变量选择过程中,都有一个判断是否可进入或剔除的显著水平,在程序中是分别由model语句的选项slentry=和slstay=设定的,缺省的情况见表33.2所示。

表33.2 缺省的入选和剔除显著水平

forward 0.50 backward 0.10 stepwize 0.15 0.15 slentry slstay 2

下面我们提供全部可能回归的程序,并且以R值的大到小排序输出。

proc reg data= fitness ;

model oxygen = age weight rstpulse maxpulse runpulse runtime

/selection= rsquare b ;

run ;

在上述程序中,model语句的选项selection= rsquare,表示请求R值最大法,选项b是表示要输出每种回归的回归系数。

程序运行后,得到见表33.3所示的结果。

2

上海财经大学经济信息管理系IS/SHUFE

Page 9 of 12

37722429.doc

商务数据分析

电子商务系列

表33.3 用R排序全部可能的变量数的逐步回归分析结果

N = 31 Regression Models for Dependent Variable: OXYGEN Parameter Number in R-square Estimates Model Intercept AGE WEIGHT RSTPULSE MAXPULSE RUNPULSE RUNTIME 1 0.74338010 82.4218 . . . . . -3.3106 1 0.15838344 82.4582 . . . . -0.2068 . 1 0.11999670 59.3325 . . -0.2225 . . . 1 0.09277653 62.2206 -0.3114 . . . . . 1 0.05604592 71.2907 . . . -0.1376 . . 1 0.02648849 55.4379 . -0.1041 . . . . -------------------------------------------------------------------------------------------- 2 0.76424693 88.4623 -0.1504 . . . . -3.2040 2 0.76142381 93.0888 . . . . -0.0735 -3.1402 2

程序的输出包括所有只含一个变量的6种回归,含2个变量的15种回归,??。总共有63种不同形式的回归模型。例如,含2个自变量按R2第二个大值选择回归模型为,R2 =0.76142381,拟合的回归模型为

oxygen= 93.0888-0.0735runpulse-3.1402runtime

若对每种变量个数,只要保留R2最大的两种情况,可在model语句中加入选项best=2,即提交以下的程序:

proc reg data= fitness ;

model oxygen = age weight rstpulse maxpulse runpulse runtime

/selection= rsquare b best=2 ;

run ;

这一程序提供较为紧凑的输出报表,见表33.4所示的结果。

上海财经大学经济信息管理系IS/SHUFE

Page 10 of 12


SAS讲义 - 第三十三课逐步回归分析(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:白血病讨论

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: