最小二乘法及其应用
1. 引言
最小二乘法在19世纪初发明后,很快得到欧洲一些国家的天文学家和测地学家的广泛关注。据不完全统计,自1805年至1864年的60年间,有关最小二乘法的研究论文达256篇,一些百科全书包括1837年出版的大不列颠百科全书第7版,亦收入有关方法的介绍。同时,误差的分布是“正态”的,也立刻得到天文学家的关注及大量经验的支持。如贝塞尔( F. W. Bessel, 1784—1846)对几百颗星球作了三组观测,并比较了按照正态规律在给定范围内的理论误差值和实际值,对比表明它们非常接近一致。拉普拉斯在1810年也给出了正态规律的一个新的理论推导并写入其《分析概论》中。正态分布作为一种统计模型,在19世纪极为流行,一些学者甚至把19世纪的数理统计学称为正态分布的统治时代。在其影响下,最小二乘法也脱出测量数据意义之外而发展成为一个包罗极大,应用及其广泛的统计模型。到20世纪正态小样本理论充分发展后,高斯研究成果的影响更加显著。最小二乘法不仅是19世纪最重要的统计方法,而且还可以称为数理统计学之灵魂。相关回归分析、方差分析和线性模型理论等数理统计学的几大分支都以最小二乘法为理论基础。正如美国统计学家斯蒂格勒( S. M. Stigler)所说,“最小二乘法之于数理统计学犹如微积分之于数学”。最小二乘法是参数回归的最基本得方法所以研究最小二乘法原理及其应用对于统计的学习有很重要的意义。
2. 最小二乘法
所谓最小二乘法就是:选择参数b0,b1,使得全部观测的残差平方和最小. 用数学公式表示为:
min?ei??(Yi?Yi)2??(Yi?b0?b1xi)2
为了说明这个方法,先解释一下最小二乘原理,以一元线性回归方程为例.
Yi?B0?B1xi??i (一元线性回归方程)
1
2?
由于总体回归方程不能进行参数估计,我们只能对样本回归函数来估计即:
Yi?b0?b1xi?ei(i?1,2...n)
从上面的公式可以看出:残差ei是Yi的真实值与估计值之差,估计总体回归函数最优方法是,选择B0,B1的估计量b0,b1,使得残差ei尽可能的小.
总之,最小二乘原理就是选择样本回归函数使得所有Y的估计值与真实值差的平方和为最小,这种确定b0,b1的方法叫做最小二乘法。
最小二乘法是回归分析中的最基本的方法。回归方程一般分为2类,线性回归方程和非线性回归方程。
2.1 线性回归最小二乘法
最小二乘法是由实验或调查的数据,建立线性型公式的一种常用方法. 在建立线性型公式中,虽然有很多种不同的方法来求样本回归函数(即真实总体回归函数的估计值),但是在回归分析中最广泛应用的方法是最小二乘法.
如果变量x和y有精确的线性关系比如说y?ax?b,那么yi?yi即观测值与回归值是相等的.事实上现实世界中的诸多变量的关系未必都是如此,由于受诸多随机因数的干扰使得物与物之间没有那种很明确的对应关系.比如说人的身高和体重就是一个对应,我们都知道长的高的人不一定就重,同理长的矮的人也不一定就轻.但身高和体重的确存在着一定的关系,而这种关系并非是y?ax?b所能确定的.那么我们要寻求身高和体重之间的关系就需要通过数学的方法.首先调查统计得出数据;其次把数据描绘出来;然后拟合一条跟已有的图象最接近的曲线,这样就可以相对地将身高和体重之间的关系表示出来.在处理类似的事情中常常用到最小二乘法.
?2.2 非线性回归最小二乘法
2
非线性回归的种类很多,常用的有抛物线方程(Y?a?bX?cX2)、指数方程(Y?abx)等。
设已知列表函数yi?f(xi)(i?0,1,...,m),并且我们想用一个通常的
n(?m)次多项式
pn?x??a0?a1x?...?anxn (1) 去近似它。问题是应该如何选择a0,a1,...,an 使pn?x?能较好地近似列表函数f?x?。按最小二乘法,应该选择a0,a1,...,an使得
...,an?? S?a0,a1, ??f?xi??pn?xi?? (2)
i?0m2取最小。注意到S是非负的,且是a0,a1,...,an的2次多项式,它必有最小值。求S 对a0,a1,...,an 的偏导数,并令其等于零,得到
??y?aii?0m0?a1xi?...?anxin?xik?0 (k?0,1,...,n)
进一步,可以将它们写成
?yxi?omkii?a0?xi?a1?xiki?oi?ommk?1... ,?...?an?xik?n (k?0,1,ni?om引进记号
sk??xi和uk??yixik
ki?oi?omm则上述方程组为
?s0a0?sa1?1??snan?u,0?sa?sa???sa?u,?1021n?n11 ? (3)
????????????a1???sna2n?un?sna0?sn?1
3
它的系数行列式是
s0s1s2?sn?1??sn?s2n.
s1?sn?sn?1Xn?1?由si(i?0,1,?,2n) 的定义及行列式性质,可以断言 Xn?1?21W?,?,??,. (4) ?????01n(n?1)!此处符号W 表Vandermonde行列式,而?是对所有可能的?i(i?0,1,?,n) 求和(每个?i 可以取值x0,x1,?,xm,并且当i?j时?i??j。由(4)式及Vandermonde 行列式的性质可知,当x0,x1,?,xm互异时,
11?1?0?1??nW??0,?1,?,?n???02?12??n2?0.
????0n?1n??nn从而,Xn?1?0??0?方程组(3)有唯一解a0,a1,?,an ,且它们使(2)取极小值如此,我们应用最小二乘法找到了f?x?的近似多项式pn?x?.
在利用最小二乘法组成和式(2)时,所有点xi都起到了同样的作用,但是有时依据某种理由认为?中的某些项的作用大些,而另外一些作用小些(例如,一些yi是由精度较高的仪器或操作上比较熟练的人员获得的,自然应该予以较大的信任),这在数学上表现为用和
??i?f?xi??pn?xi?? (5)
i?0m2 4
n替代和(2)取最小值.?i?0,且??i?1,?i通常称之为权;而(5)为加权和.
i?1用多项式pn?x??a0?a1x???anxn去近似一个给定的列表函数(即给出的一组观测值yi?f?xi?时。需要确定的参数是a0,a1,?,an;而pn?x?可以看成是a0,a1,?,an的线性函数.但是有时在利用观测或实验数据去确定一个经验公式时,往往要确定的函数和待定参数之间不具有线性形式的关系.这样问题就变得有些复杂.然而,常常可以通过变量替换使其线性化.
最小二乘法原理是用来求解线性方程组的,非线性方程经线性化后方可应用该原理. 通常在测量中遇到的问题不一定都是线性问题, 必须先把非线性问题线性化, 然后求解. 例如:
(i)有时,我们希望用如下类型的函数:
s?ptq (6) 去近似一个由一组观测数据(列表)所描绘的函数,其中p 和q 是待定的两个参数.显然s已非p和q的线性函数.怎样线性化呢?为此,我们在(6)式两端取对数,得到
Ins?Inp?qInt
记Ins?y,Inp?a0,a1?q,x?Int,则 (6)式变成
y?a0?a1x .
这是一个一次多项式,它的系数a0和a1可以用最小二乘法求得.
(ii) 我们经常希望用函数
S?AeCt (7) 去近似一个以给定的列表函数,其中A、C是待定的参数.这时,我们可以(7)的两端取对数:
InS?InA?Ct
5