2009_SAS备课笔记_回归分析
和刚才简单的回归模型类似,一般的有k个(定量)自变量x1,x2,......,xk,的对因变量y的线性回归模型为(称为多元回归)
y??0??1x1??2x2?......??kxk??
这里?1,?2,......?称为回归系数。对计算机来说,对多个自变量进行回归和一个自变量的情况类似,只不过多选自变量就是了,计算机也会自动输出相应的检验结果。而这些检验也只有在前面说的关于误差项?的各种假定成立时才有意义。
当选定一个模型,并且用数据来拟合时,并不一定所有的变量都显著,或者说并不一定所有的系数都有意义。软件中一般都有一种一边回归,一边检验的所谓逐步回归(stepwise regression)方法。该方法或者从只有常数项开始,逐个把显著的变量加入,或者从包含所有变量的模型开始,逐步把不显著的变量减去。注意不同方向逐步回归的结果也不一定相同。比方说,如果一组变量和另一组变量都提供了类似的信息,这时选择哪一组都有道理。
用案例2的数据来说明逐步回归的过程。我们关心的是Salary Post MBA(y)和什么有关。我们利用逐步回归进行选择。通过SPSS软件得到三个自变量:Salary Pro MBA(xl),Five Year Gain($ thousand) (x2)和Years To Payback(x3)。最后得到的模型为:
y??106.892?1.055x1?0.883x2?32.442x3
而单独和Salary Pro MBA(x1)回归得到的模型为:
y??11.403?2.829x1
2009_SAS备课笔记_回归分析
自变量中有定性变量的回归:案例4中的数据,还有一个自变量是收入,但它是定性变量,以虚拟变量或哑元(dummy variable)的方式出现。哑元就是在计算机数据中定性变量的直用没有实际意义的数字代表(这里收入的“低”,“中”,“高”,用1,2,3来代表)。所以,如果要用这种哑元进行回归就没有道理了。怎么办呢? 可以用下面的模型来描述:
y??0??1x1??1??,代表家庭收入的哑元?1时y??0??1x1??2??,代表家庭收入的哑元?2时y??0??1x1??3??,代表家庭收入的哑元?3时
这里?0为截距,?1为初三成绩变量的斜率,?1,?2,?3代表三种家庭收入所导致的截距的变化。现在只要估计?0、?1和?1,?2,?3即可。显然,带有定性变量的回归模型要比只有定量变量的麻烦些。但对于计算机就不算什么了。
【SPSS操作】选择Analize - General linear model - Univariate,再在主对话框中把因变量(sl)选入Dependent Variable,把定量自变量(j3)选入Covariate,把定性自变量(income)选入Factor中。为了输出估计的参数,在Option、中的Display中选择Parameter estimates; 回到主对话框后,再点击Model,在Specify Model中选Custom,再把两个有关的自变量选入右边,再在下面Building Term中选Main effect。然后就Continue- OK,就得到结果了。输出的结果有回归系数和一些检验结果。如果要求拟合值或预测值,那么只要在Save选项中点击Predicted Values中的内容,比如Unstandardized,如果要输出残差,也可在Residuals中选择感兴趣的残差。在预测中,那些只有自变量的行都给予了估计值。
这时的拟合直线有三条,对三种家庭收入各有一条:
y?28.708?0.688x?11.066,(低收入家庭) y?28.708?0.688x?4.679,(中等收入家庭)
y?28.708?0.688x,(高收入家庭)
显然,这三条线是平行的(仅截距不同)。这个模型显然比没有包括家庭收入时更加准确。此外,SPSS
还输出了关于模型及各个变量显著性的检验。这些检验也是在总体的正态性假设下有意义。
注意,这里进行的线性回归,仅仅是回归的一种,也是历史最悠久的一种。但是,任何模型都是某种近似,线性回归也不例外。因为数学上相对简单,长期以来被广泛深入地研究,成为其他回归的一个基础。
2009_SAS备课笔记_回归分析
【案例5】用电量的例子: 房主对空调器在他家电量消耗方面的影响是很关注的,因此他记录了21天中每天空调器使用的小时数。他还监测了这些天的电表并计算出使用的干瓦时(度)数。同时还记录了烘干器每天使用的次数。试建立用电量KWH与空调器使用的小时数AC和烘干器每天使用的次数DRYER的经验公式。
【用“分析家”工具(Statistics-Regression-Linear)与结果】
【程序】
编号:prog7_14
proc plot data=sasuser.kwh;
plot kwh*ac='*'; title 'KWH和AC的散点图'; plot kwh*dryer='^'; title 'KWH和DRYER的散点图'; run;
proc reg data=sasuser.kwh; model kwh= ac dryer;
title 'KWH与AC和DRYER的二元回归模型'; run;
编号:prog7_14_1
proc reg data=sasuser.kwh; model kwh= ac dryer;
title 'KWH与AC和DRYER的二元回归模型'; print cli clm;
plot kwh*ac='o' pred.*ac='-' l95.*ac='L' u95.*ac='U' /overlay; run;
2009_SAS备课笔记_回归分析
【案例6】发动机性能例子:数据库中的数据是一组检验某种工业用的发动机性能试验的数据。该试验使用的原料是柴油和从有机原料中通过蒸馏产生的气体的混合物。在各种不同的速度SPEED(用每分钟转几百转度量)下,测量发动机产生的马力POWER,试建立马力POWER与转速SPEED的关系式。
在有些实际问题中,因变量Y与x的关系不是线性关系。它们之间的关系有时可根据专业知识知道,有时通过画散点图可猜测y与z的函数形式。常见函数的曲线图有:指数函数、幂函数、对数函数和双曲函数。对这类不满足线性关系的回归问题,首先初步确定函数形形式,然后对变量y或x作适当的变换,目的是化为线性回归(一元线性或多元线性),然后求出变换后的线性关系式,最后转化为回归曲线。
【用“分析家”工具(Statistics-Regression-Simple)与结果】
2009_SAS备课笔记_回归分析
【程序】
编号:prog7_15
proc reg data=sasuser.engine graphics; model power= speed;
plot power*speed /conf95 pred95; symbol v=star; run;
编号:prog7_15_1 data temp;
set sasuser.engine; speedsq=speed*speed; run;
proc reg data=temp;
model power= speed speedsq; run;
编号:prog7_15_2 data temp;
set sasuser.engine; speedsq=speed*speed; run;
proc reg data=temp;
model power= speed speedsq; print cli;
plot power*speed='a' pred.*speed='p' l95.*speed u95.*speed/overlay symbol='L'; run;
回归曲线拟合好坏的度量:线性回归的效果可用决定系数R和误差均方s来判断;曲线回归也有类似的统计量-相关指数用于度量回归曲线的拟合效果,一元曲线回归中的曲线回归模型的剩余标准差。
多元线性回归:一、多元线性回归模型;二、参数估计方法一最小二乘准则;三、假设检验问题:1.回归方程的显著性检验;2.回归系数的显著性检验
在这些例子中都是研究一个(或几个)因变量Y与另一些变量的相互依赖关系。具体地说,我们研究:
(1)建立因变量Y与x1,x2,......xk的经验公式(回归方程); (2)对经验公式的可信度进行检验;
(3)判断每个自变量xi(i?1,2,......k)对Y的影响是否显著; (4)利用经验公式进行预报、控制及指导生产; (5)诊断经验公式是否适合这组数据。
22