SAS讲义 - 第三十二课 - 多元线性回归分析(2)

2020-06-30 09:06

106730947.doc

商务数据分析

电子商务系列

Fk,N?k?1R2/kR2N?k?1 ??22k(1?R)/(N?k?1)1?R(32.28)

具有k和N－k－1自由度。较大的F值，可使我们否定原假设。

五、 reg回归过程

在SAS/STAT中有多个进行回归的过程，如reg、glm等，常用于进行一般线性回归模

型分析的为reg过程。

1. proc reg过程

Reg过程一般由下列语句控制：

proc reg data=数据集集名 ;

model 因变量=自变量名列； var 变量列表；

output out=数据集名 ; plot 绘图表达式； print 关键字列； weight 变量； freq 变量； by 变量；

restrict 方程1，方程2，? ； test 方程1，方程2，?； run ;

其中，model语句是必需要有的，其他语句都是可选的。

2. proc reg 语句中的<选项列表>

? outest=SAS数据集——将有关模型的参数估计和选择的统计量输出到指定的SAS数据集中。

? outsscp=SAS数据集——要求把平方和及叉积矩阵输出到type=sscp的数据集中。 ? all——屏幕输出所有内容。

? usscp——对用在该过程中的所有变量输出平方和及叉积矩阵。 ? noprint——不在屏幕输出任何内容。

3. model语句中的<选项列表>

（1）确定变量筛选办法的选择项

上海财经大学经济信息管理系IS/SHUFE

Page 6 of 27

106730947.doc

商务数据分析

电子商务系列

Mallow's Cp 选择法cp、修正R2选择法adjrsq。

（2）其他选择项

表3.2所示的是可在model语句中选用的其他选项。

表32.2 model语句中的其他选项

acov covb corrb mse sse seqb all xpx i p r b dw pc spec stb cli clm jp rmse sp pcorr1 pcorr2 scorr1 scorr2 adjrsq gmsep noint slentry＝details slstay＝lackfit start＝collin best＝collinoint include＝influence stop＝partial sigma＝noprint aic sbc ss1 ss2 vif tol bic

其中一些选择项的意义如下：

? acov——存在异方差时，输出参数?估计量的渐近协方差阵的估计。

? spec——进行关于方差异性的检验。

? slentry | sle =显著性水平——规定入选变量进人方程的显著性水平。 ? slstay | sls=剔除水平——规定从方程中剔除变量的显著性水平。 ? include＝n——强迫前n个自变量进入模型。

? start＝s——以含有model语句中前3个自变量的模型开始，进行比较、选择过程（仅用于maxr或minr方法）。

? stop＝s——当找到最佳的s个变量模型之后，逐步回归便停止(仅用于maxr或minr方法)。

? p——要求计算各观测点上因变量的预测值。 ? r——作残差分析，同时给出因变量的预测值。

? cli——给出各自变量x0所对应的因变量y0的95％置信上、下限。

? clm——给出各自变量所对应的因变量预测值（均数）Eyi ＝μi 的95％置信上、下限。

? noint——指明回归方程不带截距项（常数项）。 ? stb——要求输出标准回归系数。

? covb——要求输出回归系数估计的协方差（阵）估计。 ? corrb——要求输出回归系数估计的相关矩阵估计。

?。 ? mse——要求输出随机扰动项方差?的估计?22

??? rmse——要求输出??2。 ?? collin——在对截距未进行校正的情形下，诊断多重共线性，条件数越大越可能存

在共线性。

? collinoint——在对截距进行校正的情形下，诊断多重共线性。

? tol——表示共线性水平的容许值。对于某个变量容许值定义为1－R，其中R是由这个变量和模型中所有其他回归变量建立的回归模型所得到的。tol越小说明其可用别的

上海财经大学经济信息管理系IS/SHUFE

Page 7 of 27

22106730947.doc

商务数据分析

电子商务系列

自变量解释的部分越多，自然就越可能与别的自变量存在共线性关系，tol与vif互为倒数。

? vif——输出变量间相关性的方差膨胀系数，vif越大，说明由于共线性的存在，使方差变大。

? influence——要求对异常点进行诊断。对每一观测点，输出如表32.3所示的统计量：

表32.3 诊断异常点的统计量

名称（统计量） Leverage(hi) 含义杠杆率hi，第i次观测自变量的取值在模型中作用的量度（0≤hi≤1） COOKD统计量，对某一观测点引起回归影响大小的度量。用于诊断异常点。协方差矩阵的行列式之比（去掉某一观测点后、前对比） “异常”的判别准则 hi越大，则第i 次观测在模型中的作用就越大若D＞ 50％，则可认为该观测点对模型的拟合有强的影响若| covratio | ≥ 3(自变量个数+i),则第i个观测点值得引起注意此值大于2，表明该点影响较大此值大于2，表明该点影响较大 Cook’s D covratio defits debetas

? i——要求打印?X?。 X?（其中X 为设计矩阵）

?1? xpx——输出模型的X?X叉积矩阵。

? ss1——要求打印第一类的模型参数估计的顺序平方和。 ? ss2——要求打印第二类的模型参数估计的偏平方和。 ? all——要求输出SAS所分析的以下选择项的特性：xpx，ss1，ss2，stb，covb，corrb，seqb，p，r，cli，clm，spec，acov，tol, pcorr1，pcor，r2，scorr1，scorr2。

? partial——给出每一回归变量的偏回归残差图。 ? dw——一阶自相关检验的Durbin-Watson统计量。

4. 其他选择语句

? output语句——用于把一些计算结果输出到指定的数据集中。有关的关键字及其意义如表32.4所示。

表32.4 reg过程的output语句中的关键字

关键字意义预测值残差残差/(1–hi) 刀切残差学生氏残差关键字意义 95％clm下限 95％clm上限 95％cli下限 95％cli上限杠杆点统计量hi 关键字意义 clm的标准差残差的标准差 cli的标准差 Cook D统计量 predicted residual press rstudent student l95m u95m l95 u95 h stdp stdr stdi cooked ? var语句——列出叉积矩阵中的变量，仅当具有outsscp=sasdataset这个选择时才使用。

? plot语句——绘制两变量的散点图。语句格式为：plot x*y / 选项。其中x和y变量，可以是原始数据集中的变量，也可以是统计量关键字。若变量是统计量关键字时，需要在其后加上一个小圆点“·”。

? restrict语句——要求计算线性等式约束的最小二乘估计，其中的方程就是关于回归系数（用自变量表示）的等式，方程与方程间用逗号分隔。例如，对于模型model y=a1

上海财经大学经济信息管理系IS/SHUFE

Page 8 of 27

106730947.doc

商务数据分析

电子商务系列

a2 b1 b2，可以用restrict a1+a2=1语句，表示参数估计是在a1+a2=1的条件下，求最小二乘估计。

? test语句——要求进行线性等式约束的显著性检验，即Tintner检验，其中的方程就是关于回归系数（用自变量表示）的等式，方程与方程间用逗号分隔；test语句一般不与restrict语句同用。例如，对于模型model y=a1 a2 b1 b2，可以用test a1+a2=1语句，表示在a1+a2=1原假设条件下作F检验。

5. 交互式语句

下面的这部分语句可以用在proc reg过程中，但常用在reg过程激活后，以交互方式运行。 ? add 变量名列表——向模型中增加变量。

? delete 变量名列表——删除原拟合模型中的有关变量。 ? refit——重新拟合模型。

? print——输出有关模型的相关信息。

reg过程其详细用法可参阅SAS/STAT的用户手册。

六、实例分析

例32.1 表32.5列举了一个班级的学生情况的调查数据，试分析身高对体重的影响。

表32.5 bclass记录数据 name 姓名 age 年龄 sex 性别 height 身高 (厘米) weight 体重 (公斤) 43.1 55.8 33.6 65.8 29.1 38.1 58.1 35.9 50.8 48.6 30.4 44.5 47.7 43.1 35.9 36.8 41.3 64.5 38.1 38.6 name 姓名 age 年龄 Sex 性别 height身高 (厘米) weight体重 (公斤) 42.2 44.9 54.0 41.8 50.8 44.9 51.3 41.8 50.8 58.1 50.4 47.7 47.2 48.1 50.8 52.2 58.1 52.7 60.8 78.1 Page 9 of 27

KATE LOUISE JANE JACLYN LILLIE TIM JAMES ROBERT BARBARA ALICE SUSAN JOHN JOE MICHAEL DAVID JUDY 12 12 12 12 12 12 12 12 13 13 13 13 13 13 13 14 女女女女女男男男女女女男男男男女女女女女 145 149 135 162 127 147 149 125 147 149 137 159 154 142 145 149 152 159 154 152 FREDRICK 14 ALFRED HENRY LEWIS EDWARD CHRIS JEFFERY MARY AMY ROBERT WILLIAM CLAY MARK DANNY MARTHA MARIAN PHILLIP LINDA KIRK 14 14 14 14 14 14 15 15 15 15 15 15 15 16 16 16 17 17 男男男男男男男女女男男男男男女女男女男男 154 157 159 157 167 157 169 152 157 164 159 162 152 162 159 147 167 152 167 172 ELIZABET 14 LESLIE CAROL PATTY 14 14 14 LAWRENCE 17 上海财经大学经济信息管理系IS/SHUFE

106730947.doc

商务数据分析

电子商务系列

分析和操作步骤过程如下。

1. 建立数据文件

首先要将表32.5中的数据输入到SAS数据集中，可调用SAS的数据步data过程，建立我们所需的bclass数据集。程序如下：

data study.bclass ;

input name $ age sex $ height weight ; cards ;

KATE 12 F 145 43.1 LOUISE 12 F 149 55.8

???

LAWRENCE 17 M 172 78.1

; run ;

2. 制作变量的散点图

建立完SAS数据集bclass后，一般需要对数据集中要分析的变量weight与height制作散点图，以便能从图示中反映学生的身高与体重的关系。一般的处理操作有菜单操作方法和编程方法2种。如果用菜单操作方法，在SAS/Assist环境中，从Primary Menu主菜单中选择Graphics/High resolution/ Plots/Simple x*y plot? 菜单命令，再选择Active data set为study.bclass，Vertical axis为weight，Horizontal axis为height，可以在additional options选项菜单中通过Line and Symbol子选项选定所需要的连线类型和点的符号等，最后选择Locals/Run菜单命令，提交运行即可显示图形。如果用编程方法，程序如下：

goptions reset=global gunit=pct cback=white border htitle=6 htext=3 ftext=swissb colors=(back); proc gplot data=study.bclass ;

plot weight * height ; run ;

运行后，在Graph窗口得到如图32.1所示的结果。

上海财经大学经济信息管理系IS/SHUFE

Page 10 of 27

共6页:

SAS讲义 - 第三十二课 - 多元线性回归分析(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档