2009_SAS备课笔记_回归分析
reweight语句
reweight语句用于重新指定各条用于拟合回归方程的观测的权重系数,它可以改变观测的权重系数,也可将观测的权重系数设置为0,等同于将相应的观测排除出模型拟合过程,但它并不会将这些观测删除。Reweight语句可被多次使用,reweight语句对其后面的语句发生作用,它产生作用的同时会改变模型的标签,以表示一个新的不同的模型。
Reweight语句的内容格式与paint语句的完全相同,大家可参考paint语句来运用reweight语句,需要注意的是,reweight语句只改变符合条件的观测。另外语句后的选项“weight=数值”用以对符合条件的观测指定新的权重系数,其中的“数值”须为非负实数。如果忽略此选项,新的权重系数将被默认地设置为零。
Reweight语句不会对相应的统计量立即进行重新计算,所以其后的paint语句或其它reweight语句可能发挥不了原先设想的作用。比如以下语句:
Reweight r.>0; Reweight r.>0;
其设想的作用是用残差大于零的观测重新拟合模型,在此基础上再选出残差大于零的观测再重新拟合模型,但由于reweight语句不会立即对相应统计量重新计算,第二条语句所用的条件与第一条语句完全相同,因此不能起到应有的作用,即将新模型中残差小于等于零的观测剔除出去。
解决的办法就是在两条语句之间加入其它可以对新模型立即进行重新计算的语句,最常用的是refit语句,简单高效。
test语句
test语句用于对指定的假设进行检验。语句前面的标签为可选项,用以标识不同的假设检验。 Test语句对指定的变量表达式(检验假设)进行检验,变量表达式具有与restrict语句中条件表达式完全相同的格式,为model语句中自变量及截距项之间的任何线性组合式,具体格式请参见restrict语句的内容。同一条test语句内可指定多个变量表达式用于检验,各表达式之间用逗号隔开。
与restrict语句所不同的是,test语句变量表达式中的变量名代表自身的回归系数,而非自变量本身,如以下语句:
model y=x1 x2 x3; test x1=0, x2=x3;
test语句所检验的假设为:变量x1的系数b1等于零,变量x2的系数等于变量x3的系数,即b2=b3。 Test语句可以设置一个选项,即“print”选项,其功能是将假设检验过程中所有的中间计算过程输出到结果中加以显示。
2009_SAS备课笔记_回归分析
三、各种分析工具的回归分析
用Analyst 计算回归方程
Statistics → Regression → Simple 以一元为例
Statistics → Regression → Linear 以多元为例
Insight计算回归方程: Analyze → Fit (Y X)
2009_SAS备课笔记_回归分析
【案例1】 数据库中的数据是摘自世界卫生组织的数据,有192个国家的21个变量。其中包括区域(这里把世界各国分成6个区域)、(在城镇和乡村)使用清洁水的百分比、生活污水处理的百分比、饮酒量(每年每人消费的纯酒精,单位升)、(每万人中)内科医生数目、护士和助产士数、卫生工作者数。病床数、护士助产士和内科医生之比、卫生开支占总开支的百分比、占政府开支的百分比、人均卫生开支、成人识字率、人均收入、每千个出生中5岁前死亡人数、人口增长率、(男女的)预期寿命(年)、每10万生育的母亲死亡数等。这些变量之间的相关性很大。作为例子,我们关注每1000个5岁之前儿童的死亡人数。(数据编号:Riskfac)
首先通过用描述性的点图来看哪些变量和我们所关心的5岁前儿童的死亡率有关,有什么关系。我们发现,最相关的为女性的预期寿命(男性的预期寿命和女性的预期寿命密切相关,我们就不考虑了),以及区域这个定性变量。下面两个图分别给出了儿童死亡率和女性预期寿命的散点图和分区域的儿童死亡率的盒形图。图告诉我们:女性预期寿命以及所在区域与儿童死亡率有密切关系之外,还可以看出各个区域的儿童死亡率的分布很不一样。显然这和各地区发展不平衡有关。我们将对这些关系做进一步的讨论。
【案例2】 数据库中的数据是美国60个著名商学院的数据,包括的变量有GMAT分数,学费,进入MBA前后的工资等等。下图为进入MBA学习前后的工资的散点图。可以看出,进入MBA前工资高的,毕业后也高。我们希望能够建立一个模型描述这个关系。(数据编号:Bschool)
【案例3】数据库中的数据是120个不同年龄和收入(两水平:中低收入、高收入)对是否需要加强社会保险的观点的数据。这里年龄是连续变量,收入是中低和高(分别用1和2,或L和H表示)两个水平的定性变量,而变量观点则为包含加强社会保险(用1表示)和不必加强(用0表示)两个水平的定性变量。人们想要知道的是究竟年龄和收入对观点有没有影响,有什么样的影响,以及是否可以用模型表示出这个关系。(数据编号:Mr)
根据数据,可以点出年龄和观点的散点图。这里仅有年龄是连续变量,而观点是仪仅有两个代码0和1的定量变量。该图看上去很怪异。当然,还是可以大致看出,大年龄的支持加强社会保险的多,小年龄的少。通过收入与观点的条形图可以看出,中低收入的比高收入的希望加强社会保险的多。这里因变量(观点)是定性变量,而自变量既有定量变量(年龄),又有定性变量(收入),如何能够找出一个数学模型来描述它们的关系呢?
2009_SAS备课笔记_回归分析
【案例4】数据库中的数据是50个从初中升到高中的学生(数据编号:highschool)。为了比较初三的成绩是否和高中的成绩相关,收集了他们在初三(J3)和高一(S1)的各科平均成绩。散点图如下图。
对这两个变量的数据进行线性回归,就是要找到一条直线来适当地代表上图中的那些点的趋势。这样做就要在所有可能的直线中进行挑选。首先需要确定选择这条直线的标准。当然,有很多标准,结果也不尽相同。这里介绍的是最小二乘回归(least squares regression)。古汉语“二乘”是平方的意思。最小二乘法就是寻找一条直线,使得所有点到该直线的竖直距离(即按因变量方向的距离)的平方和最小。这样的直线很容易通过计算机得到。用数据寻找一条直线的过程也叫做拟合(fit)一条直线。根据上面的数据计算初三成绩和高一成绩的回归直线。SPSS输出:截距(Constant)26. 444和斜率(变量j3的系数0.651)。
根据这里得到的截距和斜率,可以把回归直线加到初三和高一成绩的散点图上。由于这条回归直线的截距为26.444,斜率为0.651,该直线的方程为:
y?26.44?0.65x
这个直线实际上是对所假设的下面线性回归模型的估计:
y??0??1x??
这里的?是误差项。该模型假定,变量x和y有上面的线性关系,而凡是不能被该线性关系描述的y的变化都由这个误差项来承担。由于误差,观测值不可能刚好在这条直线上,如果这个模型有道理的话,这些观测值就不会离这条直线太远。这里得到的截距和斜率(26.444和0.651)是对?0和?1的估计。由于不同的样本产生不同的估计,所以估计量是个随机变量(通常用?0和?1表示),它们也有分布,也可以用由他们构造检验统计量来检验?0和?1是不是显著。拿回归主要关心的?1来说,假设检验问题是
^^H0:?1?0?H1:?1?0
如果显著,则认为回归有意义,也就是说,x的变化会引起y的变化。上面的SPSS输出也给出了这个检验:检验统计量为9. 089,而p值号为0.000 ,所以该检验很显著。当然,这些检验需要满足一些条件。
2009_SAS备课笔记_回归分析
回归中假设检验所需要的条件:最小二乘回归本身并不需要什么假定的条件,但是要对回归系数进行t检验或后面要介绍的关于拟合好坏的F检验就采要对模型作出一些假定。这些假定是关于误差项的:(1)
(2)?的方差(或标准差)对于所有x的值不变;(3)?的值互相独立;(4)? 为均值为零的随机变量;
?为正态分布随机变量。后面要引进的各种回归中的t检验和F检验均需要这些条件。这些条件中的前3项是多数这一类回归所假定的,而最后一个是为了检验所必须的。在前三个条件成立时,回归模型的误差项?被认为是随机误差,也就是说,回归模型是适当的。但是这些条件并不是自动成立的。在模型不适当时误差项是不会满足头三个条件的。
除了对?1的检验之外,还有一个说明自变量解释因变量变化百分比的度量,叫做决定系数(coefficient of determination,也叫测定系数或可决系数)用R2表示。如R2=0.632,这说明这里的自变量可以大约解释63%的因变量的变化。R2越接近1,回归就越成功。由于R2有当变量数目增加而增大的缺点,人们对其进行修改,因此,计算机输出还有一个修正的R2(adjusted R square)。对于上例,它等于0.625,当然,它和R2有类似的意义。此外,计算机还计算了一个在零假设下有下分布的检验统计量,它是用来检验回归拟合好坏的(零假设是因变量和自变量没有关系)。上例中F检验的p值也是0.000。这些结果在下面的两个SPSS输出表中:
细心的读者可能会问,这里的F检验和对?1检验都是关于模型拟合好坏的,它们究竟有什么不同。实际上,对于只有一个自变量的情况,不仅这两个检验是等价的,而且R也等于这两个变量的Pearson相关系数r的平方。但是,当多于一个自变量时,代表所有变量整体拟合情况的F检验就和个别变量系数的检验不同,R也和一个变量情况不同了。另外,这里的两个检验都是前面所说的关于?的假定下进行的。如果没有这些假定,最小二乘法照样可以用来估计回归系数(斜率截距等),但这两个检验就没有什么意义了。
22