SAS讲义 - 第三十二课 - 多元线性回归分析

2020-06-30 09:06

106730947.doc

商务数据分析

电子商务系列

第三十二课 多元线性回归分析

一、 多元回归模型表示法

通常,回归模型包括k个变量,即一个因变量和k个自变量(包括常数项)。由于具有N个方程来概括回归模型:

Yt??0??1X1t??2X2t????kXkt??t,t?1,2,?,N

模型的相应矩阵方程表示为:

错误!未定义书签。

式中;

(32.1)

(32.2)

?Y1??1X11????Y??1X12Y??2?,X?????????Y??1X1N?N??Xk1???0???1???????Xk2???1???2?,??,???????? ??????????????XkN???k??N??(32.3)

其中,Y为因变量观察的N列向量,X为自变量观察的N× (k+1) 矩阵,?为末知参数的(k+1) )列向量,? 为误差观察的N列向量。

在矩阵X表达式中,每一个元素Xij 都有两个下标,第一个下标表示相应的列(变量),第二个下标表示相应的行(观察)。矩阵X的每一列表示相应的给定变量的N次观察的向量,

与截矩有关的所有观察值都等于1。

经典的线性回归模型的假设可以阐述如下: ? 模型形式由(32.1)给定;

? 矩阵X的元素都是确定的,X的秩为(k+1),且k小于观察数N;

? ? 为正态分布,E(? )=0 和E???????I ,式中I为N×N单位矩阵。

2根据X的秩为(k+1) 的假定,可以保证不会出现共线性。如果出现完全共线性,矩阵X的一列将为其余列的线性组合,而X的秩将小于(k+1) ),关于误差的假设是最有用的假设,因为用它可以保证最小二乘法估计过程的统计性质。除了正态性外,我们还假定每一个误差项的平均值为0,方差为常数, 以及协方差为 0 。假若我们按Y的分布来表示第三个假设,则可写成下式:

Y~N(X?,?2I)

(32.4)

二、 最小二乘法估计

我们的目的是求出一个参数向量使得残差平方和最小,即:

上海财经大学经济信息管理系IS/SHUFE

Page 1 of 27

106730947.doc

商务数据分析

电子商务系列

?t2?????? ESS???t?1N(32.5)

式中:

? ??Y?Y?(32.6) (32.7)

???X?Y

?表示Y拟合值的N列向量,??表示为估计参数?表示回归残差的N列向量,而Y其中,?的(k+1) 列向量,将式(32.6)和式(32.7)代入式(32.5),则得:

??Y?X??ESS?Y?X? ??X?Y????X?X?? ?Y?Y?2?????(32.8)

?进行微分,并使之等于0,即: 为了确定最小二乘法估计量,我们求ESS对??ESS??0 ??2X?Y?2X?X????所以:

?1???X??X?(X?Y)

(32.9)

(32.10)

被称为“交叉乘积矩阵”,即错误!未定义书签。矩阵能够保证逆变换,这是因为我们假设

X的秩为(k+1),该假设直接导致了X?X的非奇异性。最小化的二阶条件是,X?X 是一个正定矩阵。

最小二乘法残差有一个有益的特性,即:

??X???0 ??X?Y?X?X??Y?X?X???(32.11)

这个结果说明自变量和残差的交叉乘积的总和为O,这个公式在一些推导中是非常有用

的。

现在可以考虑最小二乘估计量的性质。首先可以证明它们是无偏估计量。因为:

?1?1?1???X??X?X?Y??X?X?X??X????????X?X?X?? ?1设式中A??X?X?X?,且是常数,这样:

(32.12)

E??????E?A?????AE?????

(32.13)

根据式(32.13) ,可以看到,只要遗漏变量都是随机分布的,与X无关,并且具有 0 均值,则最小二乘法估计量将是无偏的。

?) ?E[(????)(????)?]Var(? ??X?X?X?E?????X?X?X?

?1?1(32.14)

??2?X?X?上海财经大学经济信息管理系IS/SHUFE

?1Page 2 of 27

106730947.doc

商务数据分析

电子商务系列

?为?的最佳线性无偏估我们看到,最小二乘法估计量为线性和无偏估计量。事实上,?计量,也就是说,它在全部无偏估计量中方差最小,这就是著名的高斯-马尔可夫定理。为

?的方差大。了证明高斯-马尔可夫定理,我们需要证明,任何其他线性估计量b的方差比??=AY。为了不失去一般性,我们可写成: 请注意?b?(A?C)Y?(A?C)X??(A?C)?

假如b是无偏的,则:

?1E?b???X?X?X?X??CX? ??I?CX?? ??(32.15)

(32.16)

式(32.16)成立的一个必要和充分的条件是CX?0,这样就可以研究矩阵Var(b)。由于b???(A?C)?,所以有:

Var(b)?E[(b??)(b??)?]?E{[(A?C)?][(A?C)?]?}

?E[(A?C)???(A?C)?]?E[???][(A?C)(A?C)?]由于:

(32.17)

?A?C??A?C???AA??CA??AC??CC?

?1?1?1?1??X?X?X?X?X?X??CX?X?X???X?X?X?C??CC???1因为CX?X?C??0,所以?A?C??A?C???X?X??CC?,即:

?1Var(b)??2[?X?X??CC?]

2??Var(?)??CC?(32.18)

我们可以看出,CC?为一半正定矩阵。该矩阵的二次型为0,只有当C=0(所有元素

为0)时才出现。当C?0时,另外的估计量b就是普通最小二乘法估计量,这样,我们的定理就得到证明。

三、 ?2的估计和t检验

为了计算估计参数的方差-协方差矩阵,我们需要给出?2的估计量,该估计量自然选为:

s2?上海财经大学经济信息管理系IS/SHUFE

?????N?k?1 (32.19)

Page 3 of 27

106730947.doc

商务数据分析

电子商务系列

?1证明s2 为 ?2 的一个无偏估计量,虽很单调冗长,但不困难。因此,s2?X?X?是

?)的估计。当?2 为已知时,可用正态分布假设检验。当用s2近似?2时,我们不得Var(?不用t假设检验。为此,我们利用以下的统计结果:

????? 若? 已知,则?2?2服从?2分布,具有N-k-1个自由度;

? 错误!未定义书签。服从?2分布,具有N-k-1个自由度;

? 错误!未定义书签。,当i=0,1,2,?,k时,服从正态分布,平均值为0,方差为

?2vi,其中vi为?X?X??1的第i个对角线元素;

??? 相互独立。 ? 错误!未定义书签。和?ii由此得出:

??tN?k?????iisvi~t(N?k?1)

(32.20)

该式为t分布,具有(N-k-1)个自由度。这就使我们能按照与前面所述相同的方式确定各个回归参数的置信区间。假如t值的绝对值相当大,就可以在适当选定的置信水平上否定原假设,参数的1??置信区间可由下式得出:

??tsv ?i?/2i其中,t?/2为与?%显著水平有关的t分布临界值。

(32.21)

四、 R2和F检验

我们可将Y的总变差分成两部分,一部分代表已说明变差,另一部分代表未说明变差。为了简化公式推导过程,首先我们假定Y变量具有0平均值,即 Y=0,则有:

TSS??(Yi?Y)2?(Yi?Y)?(Yi?Y)i?1N???????)?(X??)?Y?Y?(X???X?X?????????X????X??????????由于X???0和???X?0,因此: ?

(32.22)

??X?X????????TSS???RSS?ESS归纳成回归方差分析表,见表32.1。

(32.23)

式中TSS为总平方和,RSS为回归(已说明)平方和,ESS为残差(未说明)平方和,

表32.1 回归方差分析表

上海财经大学经济信息管理系IS/SHUFE

Page 4 of 27

106730947.doc

商务数据分析

电子商务系列

变异来源 离差平方和 source 回归R 误差E 总变异T SS 自由度 df 均方 MS F统计量 F P概率值 P P RSSESSTSSk MSR?RSS/k Fk,N?k?1?MSR/MSE N?k?1 N?1 MSE?ESS/(N?k?1) 从而

??X?X???????ESS? R?1??1??TSSY?YY?Y2(32.24)

N1若因变量不具有0平均值,我们必须改进一下R的定义。这样,yi?Yi?N2?Y

ii?1由此可以得出:

?Y?y?y?Y?Y?N??i?

i?1?N?N2(32.25)

Y???X?X???N???iN??RSS?i?1? R2??TSSy?y2N2(32.26)

注意到一个数学上的事实:随着模型中增添新的变量,R必定会增加,从而只要给模型增添越来越多的新因素,就可能使得R人为地增大。在一元回归时已经指出R较大常指模型与数据拟合得较好,在多元回归时很容易错误地去寻找一个极大化R的回归模型。我们应该知道一个好的多元回归模型,应是具有合理个数的有意义自变量的简单模型。为了解决这个问题,提出了修正R,使得只有当新增变量确实对因变量有所作用时修正R才会增加。我们定义R为修正的R,它校正拟合优度对自由度的依赖关系,如下式所示:

2222222R2?1?ESS?N?k?1?TSS?N?1?

?N?1??1?(1?R2)?N?k?1?(32.27)

现在就可以考虑对回归系数集的统计检验。最通常利用的检验是?1??2????k?0, 这个联合假设的检验。合适的F统计量为:

上海财经大学经济信息管理系IS/SHUFE

Page 5 of 27


SAS讲义 - 第三十二课 - 多元线性回归分析.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:选修5《有机化学基础》教案

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: