Chapter1 线性回归模型的OLS估计(7)

2020-04-14 01:17

可以根据公式exp(?1)?1计算出比较精确的工资差异。

实际上，对变量取对数除了体现其变化率的概念之外，对于很多数据带来另外一种好处，即降低变量的有偏分布，使其接近于正态分布。我们可以观察对数工资的分布图，并与工资的分布做比较。

. histogram wage, normal . histogram lnwage, normal

. tabstat salary lnsalary, statistics(skewness kurtosis) . sktest salary lnsalary

偏度和峰度指标以及正态分布检验统计量显示，虽然工资取对数后仍然不服从正态分布，但相对与工资来讲，情况已经改善了很多。

例 1.17 常数增长率模型

由于指数模型的回归系数表示y的变化率，而这一变化率是常数，因此指数模型在时间序列中的一个重要应用是常数增长率模型（即变量的增长率为常数）。

Ln(yt) = ln(y0) + ln(1+g)*t = ? + ? t

?表示y的连续增长率，可以根据公式exp(?1)?1计算离散增长率。

以利用常数增长率模型计算我国1952-2002年期间的经济增长率。（数据文件：cnmaro）。

. gen lny=ln(y) . gen time=_n . regress lny time

?)?1=0.08。 ??exp(?年均（离散）增长率为g附：设y的增长率为常数g，那么y的变化曲线为：

yt = y0 (1+g)t 两边取对数，可以得到：

Ln(yt) = ln(y0) + ln(1+g)*t = ? + ? t 其中，? = ln(y0)，? = ln (1+g)

?代表y的连续增长率，而g代表了y的离散增长率，g=exp(?1)?1。

例 1.18利用Zellner and Revankar (1970)美国制造业的数据进行如下分析。变量包括：valueadd=各个州机械制造业的产出增加值，nfirm=各个州的企业个数，capital=各个州的企业资本，labor=各个州的企业劳动力。（数据文件：zellner）（1）估计CD生产函数

. gen lny=ln(valueadded/nfirm) . gen lnk=ln(capital/nfirm) . gen lnl=ln(labor/nfirm) . regress lny lnk lnl, noheader

（2）计算模型的拟合值、残差项，并作图。

. predict lny_f, xb . predict lny_fse, stdp . scatter lny lny_f

（3）检验假设：行业处于规模报酬不变的状态。

. test lnk+lnl=1

例 1.19 利用Christensen and Greene (1976)数据（文件：christensen.dta），估计如下成本函数

Ln(Cost) = ?0 + ?1 Ln(Q) + ?2 Ln(Plabor) + ?3 Ln(Pcapital) + ?4 Ln(Pfuel)+ u 根据经济理论，?1体现了规模收益，而?2+?3+?4=1。

. regress lncost lnq lnpl lnpk lnpf . test lnpl+lnpk+lnpf=1 . test lnq=1

1.7.2 多项式模型

如果模型中的解释变量含有某个变量的多项式函数，则称之为多项式函数模型。二次多项式和三次多项式是两种常见的多项式函数。三次多项式模型：

y = b0 +b1 x + b2 x2 + b3 x3 + u 1.81

二次多项式模型：

y = b0 + b1 x + b2 x2 + u 1.82

比如，拉弗曲线、库兹涅茨倒U曲线、平均成本与产量都表现为二次多项式关系，总成本与产量表现为三次多项式关系。

多项式模型体现了x对y的非线性影响。比如，在二次多项式模型中，x与y之间表现为抛物线形状，x对y的边际影响为b1 + 2b2 x。x对y的影响取决于x的取值。如果b2为负值，则表明x对y的边际影响是递减的。

例 1.20 工资收入模型中加入工龄的平方项，重新回归方程。

log(wage)=?0+?1educ+?2exper+?3tenure+?4exper2+u

. gen expersq=exper^2

. regres lnwage educ exper expersq tenure

1.7.3 交叉积模型

如果变量x1对y的影响依赖于另外一个变量x2，则我们称x1与x2存在交叉影响。模型中用交叉积来体现变量的交叉影响。比如，模型

y??0??1x1??2x2??3x1x2?u

x1对y的边际影响为?1??3x2。即，x1对y的影响直接取决于x2的取值。

交叉效应中一种常见形式是带有虚拟变量的情况，或者是一个连续变量与虚拟变量的交叉积，或者是两个虚拟变量的交叉积。

例 1.21 在储蓄方程的案例中，加入虚拟变量与收入的交叉积。

Save = ?0+?1 Rent + ?2 Income +?3Rent?Income+u

其中，?1体现了租房家庭与有房家庭在截距项的差异，即相同收入水平上的有房家庭比租房家庭的储蓄额高出?1。?2体现了租房家庭与有房家庭的收入对储蓄的边际影响的差异，即有房家庭比租房家庭的边际储蓄倾向高出?2。

. gen rent_inc=rent*income

. regress save income rent rent_inc

例 1.22 在工资收入方程中，加入性别与种族的交叉积，

Ln(Wage) = ?0+?1 Educ+?2 Exper +?3Tenure+?4Female+?5Nowhite+?6Female*nowhite +u

?4体现了工资的性别差异，?5体现了工资的种族差异，?5体现了性别差异在不同种族

也不同。

. gen fem_now = female*nowhite

. regress lnwage educ exper tenure female nowhite fem_now

例 1.23利用Zellner and Revankar (1970)数据估计超对数生产函数

Ln(Q) = ?0+?1 Ln(L) +?2 Ln(K)+?3 Ln2(L) + ?4 Ln2(K) + ?5 Ln(L) Ln(K) +u

. regress lnq lnl lnk lnlsq lnksq lnllnk

估计资本和劳动力的产出弹性，并对CD生产函数进行约束检验。

劳动力的产出弹性为?(L)=?1+2?3 Ln(L) + ?5 Ln(K)，资本的产出弹性为?(K)=?2 +2?4

Ln(K) + ?5 Ln(L)，规模报酬系数为?(L)+ ?(K)。约束?3 =?4=?5，得到了CD生产函数。

. test lnlsq lnksq lnllnk

例 1.24 考察教育程度、性别对工资的影响。数据包含了1975、1985年的调查数据。（数据文件：cps78_85）

模型设定：

log(wage) = ?0 + ?1 y85 + ?2 educ + ?3 y85?educ + ?4 exper + ?5 union + ?6 female+ ?7 y85 female + u

. regres lnwage y85-y85female

例 1.25 Kiel and McClain (1995)研究了废物焚化厂对周边（North Andover, Massachusetts）房屋价格的影响。1978年有消息流传要在North Andover建立废物焚化厂，1981年正式动工（1985年正式运营）。利用1978年、1981年的房屋价格数据检验：废物焚化厂周边的房屋价格低于远处的房屋价格。房屋价格为实际价格（排除物价指数的影响）。（数据文件：kielmc）

方程设定如下：

rprice =?0 + ?1 y81 + ?2 nearinc + ?3 (y81?nearinc) + u,

其中，nearinc为0-1虚拟变量。?0体现了远处1978年的价格，?1体现81年与78年的远处房屋价格差异，?2体现了1978年远处与近处房屋价格的差异，?3体现了近处与远处的房屋价格在1981的差异与1978年的差异的变化。问题归结于检验?3的显著性。

. regress rprice y81 nearinc y81nrinc, vce(robust)

t统计量表明，?3估计量在5%的水平上没有显著性。为了结论的稳健性，考虑对模型进行两方面的修正。其一，为了使得被解释变量更接近于正态分布，价格采用对数形式。其二，为了避免由于忽略重要变量带来的参数估计量的有偏，加入其他的解释变量。模型设定如下。

Ln(rprice) = ?0 + ?1 y81 + ?2 nearinc + ?3 (y81?nearinc) + X?+u

. gen lrprice=ln(rprice) . histogram rprice, norm . histogram lrprice, norm . sktest rprice lrprice

观察两个变量的直方图和正态分布检验，可知对数变量已经服从正态分布。 . regress lrprice y81 nearinc y81nrinc nbh cbd rooms baths

结果显示，结论没有明显变化。 1.8

预测

?，对于点X0，其预测值为： ??Xβ设DGP为y?Xβ0?u。由回归结果y??0?X0βy

?0)?X0β0E(y如果考虑抽样误差和随机扰动两种预测误差，则预测误差及其方差为：

??0?y0?y?0?(X0β0?u0)?X0βu2????0)?E??0?X0β0?u0)2?Var(u?(y??E?(X0β?X0β0?u0)???Xβ)2?u2?2X(β??β)u??E?(Xβ0000000???)X'??2?X0Var(β0??2[X0(X'X)?1X0'?1]?2作为?2的估计量，利用将?

?0y0?y~t(n?k?1) ?0)Se(u得到y0的区间预测

?0?t?/2,(n?k?1)Se(u?0),y?0?t?/2,(n?k?1)Se(u?0)]。 [y如果仅考虑抽样误差，即假定u0?0，y0=E(y0)。则预测误差及其方差为：

? ?0?y0?y?0=E(y0)?y?0?X0β?X0βu2????0)?E??0?X0β)2?Var(u?(y??E?(X0β?X0β)?2???E??(X0β?X0β)?

?)X'??2X(X'X)?1X'?X0Var(β000?2作为?2的估计量，利用将??0E(y0)?y~t(n?k?1) ?0)Se(u得到y0（或E(y0)）的区间预测

?0?t?/2,(n?k?1)Se(u?0),y?0?t?/2,(n?k?1)Se(u?0)]。 [y??β，y?0?E(y0)。预测误差的如果仅考虑随机扰动，则预测误差只来自于u。即假定β方差则为

?0?y0?y?0=y0-E(y0)?u0 u?0)??2 Var(u?2作为?2的估计量，利用将??0)y0?E(y~t(n?k?1) ?0)Se(u得到E(y0)的区间预测

?0?t?/2,(n?k?1)Se(u?0),y?0?t?/2,(n?k?1)Se(u?0)]。 [y

例 1.26根据对CD生产函数的估计，进行预测。（1）计算ln(y)和初始变量y的样本内预测值及标准差；

利用predict直接预测lny，利用predictnl预测y。

. predict lny_f, xb

. predict lny_pse, stdp . predict lny_fse, stdf . predict y_f, exp(predict(xb))

. predict y_pse, exp(predict(stdp)) . predict y_fse, exp(predict(stdf))

（2）计算当lnk与lnl均取各自均值时，lny和y的预测值、标准差、95%置信区间；

. adjust lnk lnl, se ci . adjust lnk lnl, stdf ci

. adjust lnk lnl, exp ci

（3）计算当lnk=-1，lnl=0时lny和y的预测值、标准差、99%置信区间。

. adjust lnk=-1 lnl=0, se ci level(99) . adjust lnk=-1 lnl=0, stdf ci level(99) . adjust lnk=-1 lnl=0, exp ci level(99)

（4）计算当lnk=10、lnl取其均值时，lny和y的预测值、标准差、99%置信区间。

. adjust lnk=-1, se ci level(99) . adjust lnk=-1, stdf ci level(99) . adjust lnk=-1, exp ci level(99)

思考题：在一个二元线性回归模型中，有一个变量不能通过显著性检验，为什么

在预测的时候还保留在模型中呢？

计量模型的建立可以依据两条准则，其一是根据经济理论，其二是根据数据拟合。（1）根据经济理论建立的模型，很多时候解释变量x没有显著性，但由于其在理论上对被解释变量Y具有重要影响。这种统计上的不显著性可能是由于所搜集的数据的缘故，而非理论不正确。

（2）变量统计上的显著性水平只是表明原假设证据的充分性。当变量不显著时，说明没有充分的证据表明原假设是正确的，但并非说原假设就一定不正确。这种情况在上面根据经济理论建立的模型中表现得尤为突出。

因此，很多情况下，即使变量没有显著性，也将其放在模型中。

内容摘要：

1． OLS方法的目标函数为残差平方和最小。参数估计量具有无偏性、最小方差性等优良

性质；每个参数估计量体现了解释变量对被解释变量的偏影响。

2． R2可以作为衡量模型拟合优度的参考指标。为了消除解释变量个数对R2影响，采用

调整的R2。模型中不包含常数项时，经常采用非中心化的R2。

3．在正态分布条件下，参数的约束检验称之为精确检验；否出，需要利用大样本方法。

单个参数的显著性检验、方程的显著性检验都是线性约束的特殊形式。

4．模型的错误设定会影响到参数估计量的特征。一般情况下（解释变量之间存在相关

性），将不相关的变量引入模型不会影响其他参数估计量的无偏性，但会影响其有效性；忽略重要的解释变量会造成参数估计量的有偏性，但降低了估计量的方差。 5．异常点是对参数估计量造成较大影响的观测值。DFBETA、CORATIO是检测异常点

的常用方法。对异常点的分析和调整有助于模型的准确推断和预测。

6．虚拟变量即将分类变量转换为指示变量，用于描述定性变量。季节虚拟变量经常用于

对数据进行季节调整。

7．对数模型、多项式模型和交叉积模型是反映变量各种不同结构关系的常用线性模型。 8．预测误差来源于抽样误差和随机扰动两部分。

练习题

1．考察参数估计量统计特征。设DGP为：

y?2?0.8x?u,??u~NIID(0,1)?

?,??。重复100次，计算??,??的均值和有偏（1）随机生成25个样本，OLS估计量为?1212幅度。

?,??的均值和有偏幅度，观（2）将样本设定为50、100、200个，重复上述步骤。计算?12察随着样本量的差异，估计的有偏性有什么变化。

（3）随机生成200个样本，利用前3个观测值进行OLS估计量；依次利用前4、5、…、

?,??,??2随着样本容量的变化规律。 200个样本进行估计，观察OLS估计量?12[程序文件：rls.ado]

共7页:

Chapter1 线性回归模型的OLS估计(7).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档