同样地可以求出,删除第i个观测值的残差为:
??(1?h)?1u?i(?i)?yi?Xiβ?iu(?i)i?i?u?i(?i)?(1?hi)?1hiu?iu
DFITS(Welsch and Kuh,1977)、Cook距离(Cook,1977)和Welsch距离(Welsch,1982)、COVRATIO(Belsley, Kuh and Welsch(1980))都是描述杠杆与残差平方之间关系的统计量。DFITSi?rihii/(1?hii),体现了用保留与删除第i个观测值的样本分别估计方程的
拟合值的差异;Cook距离与Welsch距离体现了删除第i个观测值后系数向量之间的距离,
21s(i)DFITSi2,Cook距离Di?Welsch距离Di?DFITSi(n?1)/(1?hi)。COVRATIO是Belsley, 2ksKuh and Welsch(1980)提出的测度单个观测值对估计量协方差矩阵影响的统计量,它等于用保留与删除第i个观测值的样本分别估计方程的协方差矩阵的行列式的比,
1?n?k?ei2?COVRATIOi???
1?hi?n?k?1?其中,e表示标准化的残差。对于正常的观测值,COVRATIO近似等于1。较高的残差或较高的杠杆率都会导致COVRATIO偏离1。但如果残差和杠杆率都比较高,那么COVRATIO也近似等于1,这时就无法利用COVRATIO判断异常值。
DFBETA是测度不同解释变量的单个观测值对模型估计影响的最直接的统计量,它等于用保留与删除第i个观测值的样本别估计方程的标准化参数的差异。
DFBETAi?rimiU2(1?hi),??U2??jmj
其中,mi表示用xj对其它解释变量回归得到的残差。
如果DFITS超过2k/n (Belskey, Kuh and Welsch(1980)),或者Cook距离超过4/n(Bollen and Jackman,1990),或者Welsch距离超过3k(Chatterjee and Hadi,1988),或者|COVRATIO?1|?3k/n(Belsley, Kuh and Welsch(1980))、或者DFBETA超过2/n,都是值得关注或作进一步考察的样本点。其中,k表示模型中的解释变量个数(包括常数项)。
例 1.9 利用DFBETA、CORATIO等统计量考察例1.1的异常点 (1)利用杠杆-残差平方图进行观察
. regress salary roe sale ros
. lvr2plot, mlabel(code)
(2)利用DFITS、Cook距离、Welsch距离、COVRATIO、DFBETA统计量进行观察。 . predict dfits,dfits
. list code roe sale ros if abs(dfits)>2*sqrt(4/209) . predict cooksd if e(sample), cooksd
. list code roe sale ros cooksd if cooksd>4/209 . predict welsch, welsch
. list code roe sale ros welsch if abs(welsch)>3*sqrt(4) . predict covratio, covratio
. list code roe sale ros covratio if abs(covratio-1)>=3*4/209 . predict dfbeta, dfbeta(ret)
. list code roe sale ros dfbeta if abs(dfbeta)>2/sqrt(209)
1.6 虚拟变量
在实际建模过程中,被解释变量不但受定量变量影响,同时还有可能受定性变量的影响。
例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些定性变量也应该包括在模型中。计量经济学是利用数据研究经济学问题,因此,在对这些定性变量进行模型估计之前首先需要将其量化,即用一定的数值代表其观测值。不同的类型的变量被量化的程度是有差异的,定性变量在量化时所代表的信息是最少的。定性变量的量化称为虚拟变量,即将分类变量转换为二元指示变量。虚拟变量在模型中可以作为解释变量,也可以作为被解释变量。本节中所处理的是虚拟变量作为解释变量的情况。 1.6.1
虚拟变量
如果一个变量具有m个类别,可以设定m个虚拟变量。比如,性别设定为如下形式:
???1???????男性)? 0???????男性),female??。 male??? 0??????女性)? 1???????女性)学历(分为大学、中学、小学三个类别)设定为如下形式:
???1???????大学)???1???????中学)???1???????小学),high??,elem?? univ?????0??????其它)???0??????其它)???0??????其它)但是,要注意到male+female=l,univ+high+elem=l,即虚拟变量之和恰好等于模型中的常数变量。因此,对于m个类别的分类变量,可以按照两种方法加以设定。保留模型中的常数变量,仅加入(m-1)个虚拟变量;或者m个虚拟变量全部作为解释变量,将常数项删掉。被删掉的虚拟变量中1所对应的类别称作基础类别。比如,季节虚拟变量,
?1????????季度)?1???????2季度)?1???????3季度)?1???????4季度),D2??,D3??,D4?? D1???0??????其它季度)?0??????其它季度)?0??????其它季度)?0??????其它季度)模型设定为(X不包括常数变量)
y??1D1??2D2??3D3??4D4?Xγ?u 1.73
第1、2、3、4季度所对应的回归方程的截距项分别为?1、?2、?3、?4。虚拟变量的系数表示对应类别的回归方程的系数。如果将模型设定如下(以第1季度作为基础类别)
y??1l??2D2??3D3??4D4?Xγ?u 1.74
上面两个方程是完全等价的。将D1+ D2+ D3+ D4=l代入模型,可得到两个方程系数的对应关系。
y??1(D1?D2?D3?D4)??2D2??3D3??4D4?Xβ?u?????1D1?(?1??2)D2?(?1??3)D3?(?1??4)D4?Xβ?u别与基础类别回归系数的差异。
因此,模型(1.74)中的常数项表示基础类别的回归方程的系数,虚拟变量表示其它类例 1.10 随机调查美国旧金山地区20个家庭的储蓄情况,建立年储蓄额yt (千美元) 对年收入xt (千美元) 的回归模型。(数据文件:save)
观察两个变量的散点图,用是否租房作为标签加以标记。
. twoway (scatter save income, mlabel(rent))
显然,租房家庭与有房家庭的储蓄行为存放明显区别。模型中加入虚拟变量,rent,对于租房家庭,rent=0,对于有房家庭,rent=1。重新回归方程,
. regress save income rent
例 1.11 在例1.1中,加入行业虚拟变量,重新回归方程。(数据文件:ceosal)。
. regress salary sales roe indus-utility
例 1.12 在例1.2中加入性别、种族变量,重新回归方程。(数据文件:wage1)
. regress wage educ exper tenure female nowhite
例 1.13 National Opinion Research Center’s General Social Survey搜集了1972~1984年妇女就业、家庭等相关数据。利用数据分析家庭小孩个数的变化规律。控制变量包括:教育程度、年龄、种族、地区、生活环境(农村、城镇、小城市等)。(数据文件:fertil1)
kids = ?0 + ?1 educ + ?2 age + ?3 age2+ ?4 race + ?5 farm+ ?6 town + ?7 D74 + ?8 D76 + ?9 D78 + ?10 D80 + ?11 D82 +?12 D84 + ut
. regress kids educ-d84
1.6.2 季节虚拟变量
季节波动是很多季度数据的共同特点。对季节数据进行计量分析时,需要首先对其进行季节调整,消除其季节波动成分,利用季节调整后的序列进行分析。季节调整的方法如下。
回归模型:
y?Sγ?u
其中,S表示季节虚拟变量构成的向量。季节调整的序列则为:
??MSy或者ysa?y?u? ysa?u如果要同时消除序列的季节成分和趋势成分,则可以将模型为:
y?Sγ??t?u
其中,t表示时间趋势变量。季节调整的退势序列则为:
??MSTy或者ysa?y?u? ysa?u例 1.14 首先对天津市1998~2006年的季度GDP、投资等数据进行季节调整,然后对季节调整的投资对季节调整的GDP进行回归,Invest_sa=?0+?1GDP_sa+u。(数据文件:tjpbc2)
. xi: regress gdp i.month . predict gdp_sa, res . summ gdp
. replace gdp_sa=gdp_sa+r(mean)
. xi: regress invest i.month . predict invest_sa, res . summ invest
. replace invest_sa=invest_sa+r(mean) . regress invest_sa L.gdp_sa
处理季节数据的另外一种方法是,直接在模型中加入季节虚拟变量,
Invest = ?0+?1GDP+?2S1 +?3S2 +?4S3+u,
事实上,首先进行季节调整,然后利用季节调整序列进行分析,与在模型中直接加入季节虚拟变量是等价的。根据FML定理,
y?Sγ?Xβ?v (1)
中的?可以通过回归如下方程得到,
MSy?MSXβ?v (2)
而Msy和MsX即是季节调整后的序列。因此,?体现了经过季节调整序列的X对季节调整序列y的边际影响。对于时间序列数据,采用季节调整序列(2)、与模型中加入季节虚拟变量(1),得到相同的?估计量。
例 1.15 用天津市季度GDP对季度投资数据进行回归,模型中加入季节虚拟变量。(数据文件:tjpbc2)
. regress Invest GDP i.month
当然,实践中官方公布的季节调整数据不是简单地利用虚拟变量来进行处理的。因此,利用其季节调整序列与在模型中直接加入虚拟变量会得到不同的估计结果。 1.7
线性回归模型的结构分析
结构模型中,考察变量结构关系的两个常用概念是边际与弹性。前文所介绍线性模型中,变量x对y的边际影响是常数。接下来我们来看在其它几种常见模型中的结构解释。 1.7.1
对数模型
先来考察几种常见对数模型。
对数函数:yt = ?0 + ?1 Ln xt + ut 1.75 指数函数:Lnyt = β0 + β1 xt + ut 1.76 幂函数: Lnyt = β0 + β1 Lnxt + ut 1.77
其中Ln表示自然对数。方程(1.75)中,y与x是对数函数;方程(1.76)中,y与x是指数函数;方程(1.77)中,y与x是幂函数。这些方程中,被解释变量关于参数都是线性的,因此可以直接进行OLS估计、检验。对方程求偏导数可得:
dy = ?1 dx/x 1.78 dy/y = ?1 dx 1.79 d/y/y = ?1 dx/x 1.80
dx表示x的变化量,dx/x 表示x的变化率。因此,模型(1.75)的经济含义为:其他条件不变时,x每变化100%, y相应变化β1个单位;即x每变化1%,y相应变化β1/100个单位。模型(1.76)的经济含义为:x每变化1个单位,y相应变化100β1%。模型(1.77)的经济含义为:即x每变化1%,y相应变化β1%个单位。在指数模型中,参数体现的y的变化率,而这一变化率为常数,因此也被称作常数增长率模型。下表列出了几种模型设定形式的经济解释
模型形式 含义 dy = β1 dx dy = β1 dx/x dy/y = β1 dx dy/y = β1 dx/x 经济解释 x变化一个单位,y变化β1个单位 x变化1%,y变化β1/100个单位 x变化一个单位,y变化(100β1)% x变化1%,y变化β1% yt = β0+β1 xt + ut yt = β0+β1 Ln(xt) + ut Ln(yt)= β0+β1 xt + ut Ln(yt) = β0+β1 Ln(xt) + ut
对变量取自然对数是对经济数据处理的常用方法。一方面,变量取自然对数后,参数体现了变化率或弹性的概念。另一方面,取自然对数有助于降低变量的波动,消除异方差。其三,对于时间序列,变量自然对数的差分变量近似表示变量的增长率。当然,并不是所有的变量都适合取对数。
1. 如果变量不适合以增长率来表述,则不适合取对数。比如,以时间为测度单位变量,如受教育的年数、年龄、工龄等。
2. 比率变量一般倾向于不取对数。比如失业率、犯罪率、入学率等。如果对其取对数形式,那么一定要注意其经济解释。比如,设GDP增长率对失业率回归
Gowth = ?+ ? Unem + u
二者均以增长率(%)表示,设最初的失业率为8%。回归系数β解释为当失业率增加一个百分点的时候,即由8%增加至9%的时候,GDP增长率会变化β个百分点。
如果失业率取对数形式,
Gowth = ? + ? ln(Unem) + u
那么回归系数β应解释为当失业率变动1%的时候,即由8%增加至8%(1+1%)=8.08%的时候,GDP增长率会变化β/100个百分点。
3. 当变量y为非负数时,可以采用ln(y+1)作为y的对数变量。除了0点以外,在其他点上,对系数的经济解释不变。
上述模型中,变量取自然对数表示变化率的概念。这里的变化率是针对连续变量的情况。也可以计算离散情况下的变化率。比如,模型Ln(yi)= β0+β1 xi + ui,x变化一个单位时,ln(y)变化β1。设新的取值为yf。即?y?ln(yf)?ln(yi)?ln(yf/yi)??1,可得yf/yi?exp(?1),变化率为(yf?yi)/yi?exp(?1)?1。 例 1.16 工资收入模型
Ln(wage)=?0+?1educ+?2exper+?3tenure+?4female+?5nowhte+u 回归模型
. regress lnwage educ exper tenure female nowhite