SAS讲义 - 第三十三课逐步回归分析(3)

2019-03-29 11:42

37722429.doc

商务数据分析

电子商务系列

N = 31 Regression Models for Dependent Variable: OXYGEN Parameter Number in R-square Estimates Model Intercept AGE WEIGHT RSTPULSE MAXPULSE RUNPULSE RUNTIME 1 0.74338010 82.4218 . . . . . -3.3106 1 0.15838344 82.4582 . . . . -0.2068 . -------------------------------------------------------------------------------------------- 2 0.76424693 88.4623 -0.1504 . . . . -3.2040 2 0.76142381 93.0888 . . . . -0.0735 -3.1402 -------------------------------------------------------------------------------------------- 3 0.81109446 111.7 -0.2564 . . . -0.1309 -2.8254 3 0.80998844 80.9008 . . . 0.3542 -0.3751 -2.9702 -------------------------------------------------------------------------------------------- 4 0.83681815 98.1479 -0.1977 . . 0.2705 -0.3481 -2.7676 表33.4 只保留R2最大两种情况的逐步回归分析结果

通过上面的逐步回归分析,我们已经得到回归模型的自变量个数确定时的最优子集或次优子集,但问题是我们到底应该选择几个自变量的回归模型呢?如上表33.4中的3个自变量、4个自变量、5个自变量、6个自变量的回归模型中哪一个模型呢?一种最简便确定回归模型的自变量个数的方法是Mallows的Cp方法。确定好模型的自变量个数后,根据上表33.4就很容易确定在这个固定自变量数下,最优的自变量组合和相应的参数值估计。以下的程序是对所有可能的回归按Cp由小到大进行排序并保留其前5种,并绘制Cp图。

goptions reset=global gunit=pct cback=white border htitle=6 htext=3 ftext=swissb colors=(back) ; title 'Cp plot with Reference Lines'; proc reg data= fitness ;

model oxygen = age weight rstpulse maxpulse runpulse runtime

/selection=cp adjrsq best=5 ;

plot cp. * np. /chocking=red cmallows=blue

vaxis=0 to 15 by 2

haxis=0 to 8 by 1; run ;

Model语句中的selection=cp选项请求计算Mallows的Cp统计量。选项adjrsq表示要显示每种回归模型的统计量Adj-R2。选项best=5表示保留Cp值最小的前5种。plot语句中的cp.

上海财经大学经济信息管理系IS/SHUFE

Page 11 of 12

37722429.doc

商务数据分析

电子商务系列

* np.表达式(注意统计量关键字母后的小圆点)表示Y轴为Cp值X轴为P值(P值包括截距项)。plot语句的选项chocking=red,表示画Cp=2P-Pfull 红色参考虚线,其中P是子模型中含截距的参数个数,Pfull是全模型中不含截距的参数个数。Hoching(1976)建议选择满足Cp≤2P-Pfull 且Cp≤P的模型。plot语句的选项cmallows=blue,表示画Cp=P蓝色参考实线,其中P是子模型中含截距的参数个数。Mallows(1973)建议考虑所有满足Cp较小且接近P的模型。这一程序的输出结果见表33.5和见图33-1所示。

表33.5 按Cp由小到大进行排序并保留其前5种逐步回归分析结果

N = 31 Regression Models for Dependent Variable: OXYGEN C(p) R-square Adjusted Variables in Model In R-square 4.76609 0.83681815 4 0.81171325 AGE MAXPULSE RUNPULSE RUNTIME 5.00021 0.84800181 5 0.81760218 AGE WEIGHT MAXPULSE RUNPULSE RUNTIME 6.75259 0.83690359 5 0.80428431 AGE RSTPULSE MAXPULSE RUNPULSE RUNTIME 6.82780 0.81109446 3 0.79010496 AGE RUNPULSE RUNTIME 图33-1 带有Mallows和Hocking参考线的Cp散点图

从输出结果可看出,以Mallows的建议为标准,age,maxpulse,runpulse和runtime四个变量进人回归模型时Cp最小(4.76609),且与P=4+1=5最接近,因为5-4.76609<6-5.00021,所以应该选择Cp=4.76609的模型。以Hocking的建议为标准,Cp=4.76609的模型不满足要求,因为4.76609>2×5-6=4。而Cp=5.00021的模型满足要求,因为5.00021<2×6-6=6且5.00021<6。而Cp=6.75259的模型,无论以Mallows的建议还是以Hocking的建议都不满足要求。其实我们不必具体计算,只要看图33-1中,表示Cp值大小位置的“+”号,在蓝实线附近即满足Mallows的建议的标准,在红虚线下方即满足Hocking的建议的标准。但从Adj-R

2

看,Cp=4.76609的模型将变量weight加入后,R2更大(0.84800181>0.83681815)。不同的标准提供不同的选择结果,这是常有的情况。

上海财经大学经济信息管理系IS/SHUFE

Page 12 of 12


SAS讲义 - 第三十三课逐步回归分析(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:白血病讨论

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: