37722429.doc
商务数据分析
电子商务系列
N = 31 Regression Models for Dependent Variable: OXYGEN Parameter Number in R-square Estimates Model Intercept AGE WEIGHT RSTPULSE MAXPULSE RUNPULSE RUNTIME 1 0.74338010 82.4218 . . . . . -3.3106 1 0.15838344 82.4582 . . . . -0.2068 . -------------------------------------------------------------------------------------------- 2 0.76424693 88.4623 -0.1504 . . . . -3.2040 2 0.76142381 93.0888 . . . . -0.0735 -3.1402 -------------------------------------------------------------------------------------------- 3 0.81109446 111.7 -0.2564 . . . -0.1309 -2.8254 3 0.80998844 80.9008 . . . 0.3542 -0.3751 -2.9702 -------------------------------------------------------------------------------------------- 4 0.83681815 98.1479 -0.1977 . . 0.2705 -0.3481 -2.7676 表33.4 只保留R2最大两种情况的逐步回归分析结果
通过上面的逐步回归分析,我们已经得到回归模型的自变量个数确定时的最优子集或次优子集,但问题是我们到底应该选择几个自变量的回归模型呢?如上表33.4中的3个自变量、4个自变量、5个自变量、6个自变量的回归模型中哪一个模型呢?一种最简便确定回归模型的自变量个数的方法是Mallows的Cp方法。确定好模型的自变量个数后,根据上表33.4就很容易确定在这个固定自变量数下,最优的自变量组合和相应的参数值估计。以下的程序是对所有可能的回归按Cp由小到大进行排序并保留其前5种,并绘制Cp图。
goptions reset=global gunit=pct cback=white border htitle=6 htext=3 ftext=swissb colors=(back) ; title 'Cp plot with Reference Lines'; proc reg data= fitness ;
model oxygen = age weight rstpulse maxpulse runpulse runtime
/selection=cp adjrsq best=5 ;
plot cp. * np. /chocking=red cmallows=blue
vaxis=0 to 15 by 2
haxis=0 to 8 by 1; run ;
Model语句中的selection=cp选项请求计算Mallows的Cp统计量。选项adjrsq表示要显示每种回归模型的统计量Adj-R2。选项best=5表示保留Cp值最小的前5种。plot语句中的cp.
上海财经大学经济信息管理系IS/SHUFE
Page 11 of 12
37722429.doc
商务数据分析
电子商务系列
* np.表达式(注意统计量关键字母后的小圆点)表示Y轴为Cp值X轴为P值(P值包括截距项)。plot语句的选项chocking=red,表示画Cp=2P-Pfull 红色参考虚线,其中P是子模型中含截距的参数个数,Pfull是全模型中不含截距的参数个数。Hoching(1976)建议选择满足Cp≤2P-Pfull 且Cp≤P的模型。plot语句的选项cmallows=blue,表示画Cp=P蓝色参考实线,其中P是子模型中含截距的参数个数。Mallows(1973)建议考虑所有满足Cp较小且接近P的模型。这一程序的输出结果见表33.5和见图33-1所示。
表33.5 按Cp由小到大进行排序并保留其前5种逐步回归分析结果
N = 31 Regression Models for Dependent Variable: OXYGEN C(p) R-square Adjusted Variables in Model In R-square 4.76609 0.83681815 4 0.81171325 AGE MAXPULSE RUNPULSE RUNTIME 5.00021 0.84800181 5 0.81760218 AGE WEIGHT MAXPULSE RUNPULSE RUNTIME 6.75259 0.83690359 5 0.80428431 AGE RSTPULSE MAXPULSE RUNPULSE RUNTIME 6.82780 0.81109446 3 0.79010496 AGE RUNPULSE RUNTIME 图33-1 带有Mallows和Hocking参考线的Cp散点图
从输出结果可看出,以Mallows的建议为标准,age,maxpulse,runpulse和runtime四个变量进人回归模型时Cp最小(4.76609),且与P=4+1=5最接近,因为5-4.76609<6-5.00021,所以应该选择Cp=4.76609的模型。以Hocking的建议为标准,Cp=4.76609的模型不满足要求,因为4.76609>2×5-6=4。而Cp=5.00021的模型满足要求,因为5.00021<2×6-6=6且5.00021<6。而Cp=6.75259的模型,无论以Mallows的建议还是以Hocking的建议都不满足要求。其实我们不必具体计算,只要看图33-1中,表示Cp值大小位置的“+”号,在蓝实线附近即满足Mallows的建议的标准,在红虚线下方即满足Hocking的建议的标准。但从Adj-R
2
看,Cp=4.76609的模型将变量weight加入后,R2更大(0.84800181>0.83681815)。不同的标准提供不同的选择结果,这是常有的情况。
上海财经大学经济信息管理系IS/SHUFE
Page 12 of 12