河北工程大学本科毕业设计(论文)
由于有n期的观察值,这一模型实际上包含n个方程
Y1??0??1z11??1z11????kzk1??1
Y2??0??1z12??2z22????kzk2??2
?? Y2??0??1z1n??2z2n????kzkn??n
写成矩阵形式:
Y?Z???, (2.2) 其中
?Y1??1 z11 z21 ?zk1????Y2??1 z12 z22 ?zk2Y???,Z???? ? ? ?????1 z z ? z?Y?1n2nkn??n????? , ????????0???0???0???????????1???1???1?????, ?? ,????.
?? ? ?????? ????????????k??n?????k?
2.2.2 模型的假设
因为多元线性模型的建立或选择过程包含相当的主观性,所依据的理论和经验也可能不正确,因此并不能保证模型符合变量的实际关系。而如果模型本身有问题,那么分析的有效性和价值就很难有保证,为了保证所分析的变量关系符合多元线性回归分析的基本规定性,明确分析对象,保证回归分析的有效性和性质,也为了检验判断的依据,需要对多元线性回归模型作一些架设,共包括下列六条:
(1)变量Yi和X1i,X2i?,Xki,(i=1,2...n)之间,存在线性随机函数关系(2)对应每组观测数据的误差项?i,都为零均值的随机变量,即?i的数学期望(3)误差项?i的方差为常数,即Var(?i)?E??i?E(?i)??E(?i)??2 对i=1,2...n 都
22Yi??0??1X1i??2X2i????kXki??i,其中?i是随机误差项。
E(?i)=0对i=1,2...n都成立。 成立(假设(2)成立为前提)。
(4)对应不同观测数据的误差项不相关,即
Cov(?i,?j)?E(?i?E(?i))(?j?E(?j))?E(?i???j?0)对任意的 i?j都成立(假设(1)
成立为前提)。
6
河北工程大学本科毕业设计(论文)
(5)解释变量Xi(i?1,?,r)是确定性变量而非随机变量。当存在多个解释变量(r>1)时假设不同解释变量之间不存在线性关系,包括严格的线性关系和强的近似线性关系。 (6)误差项?i服从正态分布[7]。
2.3 多元线性回归参数估计
2.3.1 最小二乘估计和正规方程组
这里直接根据回归残差平方和最小的准则,推导多元线性回归模型参数的最小二乘估计量。对于多元线性回归模型Y??0??1z1????kzk??,
Y?b0?b1z1???bkzk回归残差平方和为:
?如果用b0,?,bk分别表示模型参数?0,?,?k的估计,那么样本回归方程就是
V???i2i??[Yii-(b0?b1z1i???bkzki)]2 (2.3)
当V对b0,?,bk的一阶偏导数都等于0,即下列方程组: ?2[Yi-(b0?b1z1i???bkzki)](-1)?0,
?2[Yi-(b0?b1z1i???bkzki)](-z1i)?0,
ii??
?2[Yi-(b0?b1z1i???bkzki)](-zki)?0,
同时成立时,V有最小值。对这个方程组整理,可得到如下的正规方程组:
b0?Y -(b1z1???bkzk) ,
S11b1?S12b2???S1KbK?S10,
i?
SK1b1?SK2b2???SKKbK?SK10,
其中
Sk0??(ziki-zk) (Yi-Y),k,i?1,?K,
Skj???
?(ziki-zk) (zji-zj),k,j?1,?K.
bk上述正规方程组有K+1个方程,未知数也是K+1个。只要系数矩阵非奇异即满足 的唯一的一组解,就是?0,?,?k的最小二乘估计[8]。
解释变量矩阵Z列满秩:R(Z)?k。此时,有R(Z'Z)?k,Z'Z可逆。可以解出b0,?,
2.3.2 最小二乘估计的矩阵形式
引进参数估计量,解释变量回归值和回归残差的下列向量表示:
7
河北工程大学本科毕业设计(论文)
?b0?b1?B?
????bK????Y??1?1??????,??? Y????,? ??. (2.4)
????????Y?n??n??把样本数据分别带入样本回归方程,得到回归方程组为:
Y1?b0?b1z11???bkzk1, (2.5)
? ?
Yn?b0?b1z1n???bkzkn??
写成等价的向量方程,则为:Y?ZB.
这样回归残差向量为:??Y-Y?Y-XB.
在利用向量,矩阵的运算法则,可以得到残差平方和为
V????i2????(Y?XB)(Y?XB)=YY-BXY-YXB?BXXB.
''''''''求V对b0,?,bk的偏导数,等价于V对向量B求梯度,因此最小二乘估计的正规方程
??V???b??0?组为:?BV??????2Z'?2Z'ZB?0,整理得到矩阵 形式:Z'ZB?ZY.
???V?????bn??当X?X可逆,也就是X是满秩矩阵,在上述向量方程两端左乘X?X的逆矩阵,得到:
B?(ZZ)ZY, (2.6)
'-1'这就是多元线性回归模型最小二乘估计的矩阵一般形式。
2.3.3 最小二乘估计量的性质
(1)线性性:
多元线性回归模型参数的最小二乘估计向量为:B?(Z'Z)-1Z'Y,各个参数的最小二乘估计向量为bk??(z'z)-1z'?????k?1Y,其中的?(z'z)-1z'?????k?1是矩阵(z'z)-1z'的k+1
行元素构成的行向量,上式对k=1,?,K都成立,bk正是被解释变量观测值Yi的线性组合,也就是多元线性回归参数的最小二乘估计是线性估计。
(2)无偏性:
多元线性回归的最小二乘估计也是无偏估计,即参数最小二乘估计量的数学期望都
等于相应参数的真实值,最小二乘估计向量的数学期望等于参数真实值的向量,参数真
8
河北工程大学本科毕业设计(论文)
实值是参数估计量的概率分布中心。
? ?E?(ZE(B)=E(ZZ)ZY?E(ZZ)X(X???)'-1''-1'??'-1'?
'Z)X(X???)=E??(ZZ)ZE(?)??'-1?
???(Z'Z)?1Z'E(?)??.
(3)最小方差性:
根据最小二乘估计公式和模型假设,可以直接导出包含各个参数估计量方差和不同
参数估计量协方差的,参数估计向量B的协方差矩阵为:
B)?Var[ZZ Var(?'?-1ZY]?Var[ZZ'?'?'-1Z(Z???)]
' ?Var[??ZZ ?ZZ?'?-1Z?]?Var[ZZ'??-1?'?-1ZVar[?][ZZ'?'?-1Z]?ZZ'?'?Z?]
-1'2'Z?I[ZZ?'?-1Z]
' ??z'z??2 (2.7)
?1
2.4 回归拟合度评价和决定系数
2.4.1 离差分解和决定系数
判断回归结果好坏基本标准,是回归直线对样本数据的逆合程度,称为“拟合度”。
回归直线的逆合度一方面取决于回归直线的选择,这就是由参数估计方法决定的,另一方面则取决于样本数据的分布。当参数估计方法固定时,主要取决于样本数据的分布。
样本数据的分布在本质上是由变量关系决定的。因此回归拟合度也是检验模型变量关系真实性,判断模型假设是否成立的重要方法。拟合度较好是对模型的支持,否则,可能意味着必须对模型进行修改。
首先需要从Y的离差中分离出由解释变量决定的部分,因变量的实际观测值与其样本均值的离差即总离差(Y?Y)可以分解为两部分:一部分是因变量的理论回归值与
??Y)其样本均值的离差(Y, 它可以看成是能够由回归直线解释的部分,称为可解释?)离差;另一部分是实际观测值与理论回归值的离差(Y?Y,它是不能由回归直线加以
解释的残差e。 对任一实际观测值Y总有:
Y?Y?(Y?Y?)?(Y??Y) (2.8)
_???Yi?Y????2????Yi?Yi????2对公式(2.8)两边平方并求和并计算,可得到:
?????_??Yi?Y???
?2.9? SST?SSR?SSE
根据最小二乘估计和回归残差的相关公式,所有Yi的离差的平方和记为
?2?2?SST =?(Yj?Yj)称为“总离差平方和”,而?(Yj?Yj)记为SSR称为“残差平方和”,
?(Yj?Yj)记为SSE称为“回归平方和”。
9
2 河北工程大学本科毕业设计(论文)
式(2.9)两边同除以SST ,得:
SSRSST?SSESST 1?
(2.10)
显而易见,各个样本观测点与样本回归直线靠的越近,SSR在SST 中所占的比重就
SSRSST越大。(2.10)式中的正是反映解释变量(或回归直线)对被解释变量决定程度的
指标,我们称它为“决定系数”(determined coefficient),通常用R2表示。计算公式为:
R2?
2.4.2 决定系数的性质及修正可决系数
决定系数是对回归模型拟合程度的综合度量,决定系数越大,模型拟合程度越高。决定系数越小,则模型对样本的拟合程度越差。决定系数R2具有如下性质:
(1) 决定系数R2具有非负性。
由决定系数的定义式可知,R2的分子分母均是不可能为负值的平方和,因此其比 值必大于零。
(2) 判定系数的取值范围为0?R2?1。
由R2的计算公式可以看出:当所有的观测值都位于回归直线上时,SSR=0,这时
2R=1,说明总离差可以完全由所估计的样本回归直线来解释;当观测值并不是全部位
SSRSST?1?SSESST.
于回归直线上时, SST>0,则SSR/SST>0,这时R2<1;当回归直线没有解释任何离差,即模型中解释变量Y与因变量Y完全无关时,Y的总离差全部归于残差平方和,即
SSR=SST ,这时R2=0。
(3) 判定系数是样本观测值的函数,它也是一个统计量。
判定系数R2的大小受到自变量X的个数k的影响。可以证明,增加自变量X的个数,回归平方和增大,从而使得R2增大。由于增加自变量个数引起的R2增大与拟合好坏无关,在含自变量个数k 不同的模型之间比较拟合程度时,R2就不是一个合适的指标,必须加以调整。
调整方法为:把残差平方和与总离差平方和之比的分子分母分别除以各自的自由度,变成均方差之比,以剔除自变量个数对拟合优度的影响。调整的判定系数为: R2?1-n-1n-K-1(1-R)?1-2n-1n-K-1?ε*iii2i2?(Y-Y) (2.11)
10