多元线性回归分析
在数量分析中,经常会看到变量与变量之间存在着一定的联系。要了解变量之间如何发生相互影响的,就需要利用相关分析和回归分析。回归分析的主要类型:一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析以及逻辑回归分析等。 1.1 回归分析基本概念
相关分析和回归分析都是研究变量间关系的统计学课题。在应用中,两种分析方法经常相互结合和渗透,但它们研究的侧重点和应用面不同。 在回归分析中,变量y称为因变量,处于被解释的特殊地位;而在相关分析中,变量y与变量x处于平等的地位,研究变量y与变量x的密切程度和研究变量x与变量y的密切程度是一样的。
在回归分析中,因变量y是随机变量,自变量x可以是随机变量,也可以是非随机的确定变量;而在相关分析中,变量x和变量y都是随机变量。 相关分析是测定变量之间的关系密切程度,所使用的工具是相关系数;而回归分析则是侧重于考察变量之间的数量变化规律,并通过一定的数学表达式来描述变量之间的关系,进而确定一个或者几个变量的变化对另一个特定变量的影响程度。
具体地说,回归分析主要解决以下几方面的问题。
(1)通过分析大量的样本数据,确定变量之间的数学关系式。
(2)对所确定的数学关系式的可信程度进行各种统计检验,并区分出对某一特定变量影响较为显著的变量和影响不显著的变量。
(3)利用所确定的数学关系式,根据一个或几个变量的值来预测或控制另一个特定变量的取值,并给出这种预测或控制的精确度。
作为处理变量之间关系的一种统计方法和技术,回归分析的基本思想和方法以及“回归(Regression)”名称的由来都要归功于英国统计学F·Galton(1822~1911)。
在实际中,根据变量的个数、变量的类型以及变量之间的相关关系,回归分析通常分为一元线性回归分析、多元线性回归分析、非线性回归分析、曲线估计、时间序列的曲线估计、含虚拟自变量的回归分析和逻辑回归分析等类型。 1.2 多元线性回归
1.2.1 多元线性回归的定义
一元线性回归分析是在排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程,所进行的分析是比较理想化的。其实,在现实社会生活中,任何一个事物(因变量)总是受到其他多种事物(多个自变量)的影响。
一元线性回归分析讨论的回归问题只涉及了一个自变量,但在实际问题中,影响因变量的因素往往有多个。例如,商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响;影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等。
因此,在许多场合,仅仅考虑单个变量是不够的,还需要就一个因变量与多个自变量的联系来进行考察,才能获得比较满意的结果。这就产生了测定多因素之间相关关系的问题。
研究在线性相关条件下,两个或两个以上自变量对一个因变量的数量变化关
1
系,称为多元线性回归分析,表现这一数量关系的数学公式,称为多元线性回归模型。
多元线性回归模型是一元线性回归模型的扩展,其基本原理与一元线性回归模型类似,只是在计算上更为复杂,一般需借助计算机来完成。 1.2.2 多元线性回归模型
1.2.2.1元线性回归模型及其矩阵表示
设y是一个可观测的随机变量,它受到p个非随机因索x1,x2,…,xp和随机因素?的影响,若y与x1,x2,…,xp有如下线性关系:
y??0??1x1????pxp?? (1.1)
其中?0,?1,…,?p是p?1个未知参数,?是不可测的随机误差,且通常假定
?~N(0,?2).我们称式(1.1)为多元线性回归模型.称y为被解释变量(因变量),xi(i?1,2,?,p)为解释变量(自变量).
称
E(y)??0??1x1????pxp (1.2)
为理论回归方程.
对于一个实际问题,要建立多元回归方程,首先要估计出未知参数?0,?1, …,?p,为此我们要进行n 次独立观测,得到n组样本数据(xi1,xi2,?,xip;yi),
i?1,2,?,n,他们满足式(1.1),即有
?y1??0??1x11??2x12????px1p??1?y????x??x????x???20121222p2p2 (1.3) ???????yn??0??1xn1??2xn2????pxnp??n其中?1,?2,?,?n相互独立且都服从N(0,?2).
式(1.3)又可表示成矩阵形式: Y?X??? (1.4) 这里,Y?(y1,y2,?,yn)T,??(?0,?1,?,?p)T,??(?1,?2,?,?n)T,
?~Nn(0,?2In),In为n阶单位矩阵.
2
?1x11?1x21X????????1xn1x12x22?xn2?x1p??x2p??
????xnp??n?(p?1)阶矩阵X称为资料矩阵或设计矩阵,并假设它是列满秩的,即rank(X)?p?1.
由模型(1.3)以及多元正态分布的性质可知,Y仍服从n维正态分布,它的期望向量为X?,方差和协方差阵为?2In,即Y~Nn(X?,?2In). 1.2.2.2参数的最小二乘估计及其表示
1. 参数的最小二乘估计
与一元线性回归时的一样,多元线性回归方程中的未知参数?0,?1,?,?p仍然
可用最小二乘法来估计,即我们选择??(?0,?1,?,?p)使误差平方和
T??2Q(?)????i??T??(Y?X?)T(Y?X?)i?1n??(yi??0??1xi1??2xi2????pxip)2i?1n
达到最小.
由于Q(?)是关于?0,?1,?,?p的非负二次函数,因而必定存在最小值,利用微
n?)??Q(?????x???x?????x)?0??2?(yi???01i12i2pip??i?10?n?)??Q(?????x???x?????x)x?0??2?(yi???01i12i2pipi1??i?11???????? ?n?)?Q(?????x???x?????x)x?0???2?(yi??01i12i2pipik???ki?1?????????Q(?n?)????x???x?????x)x?0???2?(yi??01i12i2pipip???i?1p?积分的极值求法,得
?(i?0,1,?,p)是?(i?0,1,?,p)的最小二乘估计.上述对Q(?)求偏导,这里?求得ii正规方程组的过程可用矩阵代数运算进行,得到正规方程组的矩阵表示:
?)?0 XT(Y?X? 3
移项得
??XTY (1.5) XTX?称此方程组为正规方程组.
依据假定R(X)?p?1,所以R(XTX)?R(X)?p?1.故(XTX)?1存在.解正规方
程组(1.5)得
??(XTX)?1XTY (1.6) ?????x???x?????x为经验回归方程. ???称y01122pp
2.误差方差?的估计
2
将自变量的各组观测值代入回归方程,可得因变量的估计量(拟合值)为
? ??(y?1,y?2,?,y?p)2?X?Y
??[I?X(XTX)?1XT]Y?(I?H)Y称为残差向量,其中??Y?X?向量e?Y?Ynn?H?X(XTX)?1XT为n阶对称幂等矩阵,In为n阶单位阵.
?TXTY为残差平方和称数eTe?YT(In?H)Y?YTY??(Error Sum of Squares,简写为
由于E(Y)?X?且(In?H)X?0,则
??SSE).
??????E(eTe)?E{tr[?T(In?H)?]}?tr[(In?H)E(??T)]
2
??2tr[In?X(XTX)?1XT] ??2{n?tr[(XTX)?1XTX]} ??2(n?p?1)
??从而?
??1eTe为?2的一个无偏估计.
n?p?13.估计量的性质 性质1
?为?的线性无偏估计,且D(??)?Var(??)??2(XTX)?1. ???(XTX)?1XTY是Y的线性函数,故其为线性估计,且有 证 由于??)?(XTX)?1XTE(Y)????(XTX)?1XTX??? E(??)?(XTX)?1XTD(Y)XT(XTX)?1??2(XTX)?1 D(?
4
?为?的线性无偏估计,又由于(XTX)?1一般为非对角阵,故??的各个这一性质说明???分量间一般是相关的.
性质2 E(e)?O,D(e)??2(I?H).
证 由于e?(I?H)Y,故E(e)?(I?H)E(Y)?(I?H)X??O
???D(e)?(I?H)D(Y)(I?H)T??2(I?H)
这一性质表明残差向量的各个分量间一般也是相关的.
?)?O. 性质3 Cov(e,??)?Cov((I?H)Y,(XTX)?1XTY) 证 Cov(e,?
???(I?H)D(Y)X(XTX)?1?O.
??是不相关的,又由于残差平方和SSE是e的函这一性质表明残差e与?的最小二乘估计??也不相关.在正态假定下不相关与独立等价,因而SSE与??独立. 数,故它与?
性质4 E(SSE)?(n?p?1)?2. 证明略
性质5 (Gauss-Markov定理)在假定E(Y)?X?,D(Y)??2In时,?的任一
??,其中?是任一p?1 线性函数?T?的最小方差线性无偏估计(BLUE)为?T??是?的最小二乘估计. 维向量,?
性质6 当YNn(X?,?2I),有以下几点结论:
?(1)?N(?,?2(XTX)?1);
?独立; (2)SSE与?(3)SSE?2(n?p?1).
性质5、性质6的证明参见周纪芗《回归分析》或方开泰《实用回归分析》. 给定因变量y与x1,x2,…,xp的n组观测值,利用前述方法确定线性回归方程是否有
1.2.3回归方程和回归系数的显著性检验
意义,还有待于显著性检验.下面分别介绍回归方程显著性的F检验和回归系数的t检验,
同时介绍衡量回归拟合程度的拟合优度检验
1.2.3.1回归方程显著性的检验
5