内部文件,版权追溯 内部文件,版权追溯 内部文件,版权追溯 8 最小二乘估计
[学习目标] 1.了解最小二乘法.2.理解线性回归方程的求法.3.掌握线性回归方程的意义.
知识点一 最小二乘法
1.定义:如果有n个点(x1,y1),(x2,y2),…,(xn,yn),可以用下面的表达式来刻画这些点与直线y=a+bx的接近程度:
[y1-(a+bx1)]+[y2-(a+bx2)]+…+[yn-(a+bxn)].
使得上式达到最小值的直线y=a+bx就是我们所要求的直线,这种方法称为最小二乘法. 2.应用:利用最小二乘法估计时,要先作出数据的散点图.如果散点图呈现出线性关系,可以用最小二乘法估计出线性回归方程;如果散点图呈现出其他的曲线关系,我们就要利用其他的工具进行拟合. 知识点二 回归直线的求法 1.回归直线
如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.回归方程与最小二乘法
^
^
^
2
2
2
我们用yi-yi来刻画实际观察值yi(i=1,2,…,n)与yi的偏离程度,yi-yi越小,偏离越小,
^
直线就越贴近已知点.我们希望yi-yi的n个差构成的总的差量越小越好,这才说明所找的
^
直线是最贴近已知点的.由于把yi-yi这个差量作和会使差量中的正负值相互抵消,因此我
n们用这些差量的平方和即Q=? (yi-a-bxi)作为总差量,回归直线就是所有直线中Q取最
2
i=1
小值的那一条.因为平方又叫二乘方,所以这种使“差量平方和最小”的方法叫做最小二乘法.
^
^
用最小二乘法求回归方程中的a,b有下面的公式:
1
?? x-xy-y?b=?? x-x?
?a=y-bx,
nii^
n?xiyi-nx yi=1
i=1
=ni-nx?x2i=1
2
,n2
ii=1^
^
^
^
1n其中x=?xi,y=?yi.
1
nni=1ni=1
^^^
这样,回归方程的斜率为b,截距为a,即回归方程为y=bx+a. 思考 任何一组数据都可以由最小二乘法得出回归方程吗?
答 用最小二乘法求回归方程的前提是先判断所给数据具有线性相关关系(可利用散点图来判断),否则求出的回归方程是无意义的.
题型一 变量间相关关系的判断
例1 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x y (1)画出散点图; (2)求回归方程. 解 (1)散点图如图所示.
2 30 4 40 5 60 6 50 8 70
(2)列出下表,并用科学计算器进行有关计算.
i xi yi 1 2 30 2 4 40 3 5 60 4 6 50 5 8 70 2
xiyi 60 160 300 300 560 x2i 4 16 25 36 64 5x=5,y=50,?x2i=i=1 5145,?xiyi=1 380 i=15
?xiyi-5x y^
i=1
于是可得,b=
=1 380-5×5×50
145-5×5
2=6.5, 5
?x22
i-5xi=1
^^
a=y-bx=50-6.5×5=17.5.
^
于是所求的回归方程是y=6.5x+17.5. 反思与感悟 1.求回归方程的步骤 (1)列表xi,yi,xiyi.
nnn(2)计算x,y,
?x2
2
i,?yi,?xiyi.
i=1
i=1
i=1
^
^
(3)代入公式计算b,a的值.
^
^
^
(4)写出回归方程y=a+bx. 2.求回归方程的适用条件
两个变量具有线性相关性,若题目没有说明相关性,则必须对两个变量进行相关性判断.跟踪训练1 某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:x 6 8 10 12 y 2 3 5 6 已知记忆力x和判断力y是线性相关的,求线性回归方程. 解 x=
6+8+10+124=9,y=2+3+5+6
4
=4,
4
∑2
2
2
2
2
i=1xi=6+8+10+12=344,
4
∑i=1
xiyi=6×2+8×3+10×5+12×6=158,
b=158-4×9×414
344-4×81=20
=0.7,
3
a=y-bx=4-0.7×9=-2.3.
则所求的线性回归方程为y=0.7x-2.3. 题型二 利用线性回归方程对总体进行估计
例2 有一个同学家开了一个小卖部,他为了研究气温对热饮销售的影响,经过统计,得到一个卖出的热饮杯数与当天气温的对比表: 摄氏温 度/℃ 热饮 杯数 -5 0 4 7 12 15 19 23 27 31 36 156 150 132 128 130 116 104 89 93 76 54 (1)画出散点图; (2)从散点图中发现气温与热饮销售杯数之间关系的一般规律; (3)求回归方程;
(4)如果某天的气温是2 ℃,预测这天卖出的热饮杯数. 解 (1)散点图如图所示:
(2)从上图看到,各点散布在从左上角到右下角的区域里,因此气温越高,卖出去的热饮杯数越少.
(3)从散点图可以看出,这些点大致分布在一条直线的附近,因此,可用公式求出回归方程的系数.利用计算器容易求得回归方程y=-2.352x+147.772.
(4)当x=2时,y=143.068.因此,某天的气温为2 ℃时,这天大约可以卖出143杯热饮. 反思与感悟 用线性回归方程进行数据拟合的一般步骤是:(1)把数据列成表格;(2)作散点图;(3)判断是否线性相关;(4)若线性相关,求出系数b,a的值(一般也列成表格的形式,用计算器或计算机计算);(5)写出回归直线方程y=a+bx.
跟踪训练2 2014年元旦前夕,某市统计局统计了该市2013年10户家庭的年收入和年饮食支出的统计资料如下表:
年收入x(万2 4 4 6 6 6 7 7 8 10 4
元) 年饮食支出0.9 1.4 1.6 2.0 2.1 1.9 1.8 2.1 2.2 2.3 y(万元) (1)如果已知y与x是线性相关的,求线性回归方程; (2)若某家庭年收入为9万元,预测其年饮食支出.
10
10
2
(参考数据:?xiyi=117.7,?xi=406)
i=1
i=1
解 (1)依题意可计算得:x=6,y=1.83,x2=36,
10
10
x y=10.98,又∵?xiyi=117.7,?x2i=406,
i=1
i=1
10
?xiyi-10xi=1
y≈0.17,a=y-bx=0.81,
∴b=
10
i-10x?x2i=1
2
∴y=0.17x+0.81.
∴所求的线性回归方程为y=0.17x+0.81. (2)当x=9时,y=0.17×9+0.81=2.34.
可估计大多数年收入为9万元的家庭每年饮食支出约为2.34万元.
1.炼钢时钢水的含碳量与冶炼时间有( ) A.确定性关系 C.函数关系 答案 B
解析 炼钢时钢水的含碳量除了与冶炼时间有关外,还受冶炼温度等的影响,故为相关关系.
^
B.相关关系 D.无任何关系
2.设有一个回归方程为y=-1.5x+2,则变量x增加一个单位时( ) A.y平均增加1.5个单位 C.y平均减少1.5个单位 答案 C
解析 ∵两个变量线性负相关,∴变量x增加一个单位,y平均减少1.5个单位. 3.某商品的销售量y(单位:件)与销售价格x(单位:元/件)负相关,则其回归方程可能是( )
B.y平均增加2个单位 D.y平均减少2个单位
5
^^
A.y=-10x+200
^
B.y=10x+200
^
C.y=-10x-200 答案 A
D.y=10x-200
解析 结合图象(图略),知选项B,D为正相关,选项C不符合实际意义,只有选项A正确. 4.设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本
^
数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为y=0.85x-85.71,则下列结论中不正确的是( ) A.y与x具有正的线性相关关系 B.回归直线过样本点的中心(x,y)
C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kg D.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg 答案 D
^
解析 当x=170时,y=0.85×170-85.71=58.79,体重的估计值为58.79 kg.
^
5.正常情况下,年龄在18岁到38岁的人,体重y(kg)对身高x(cm)的回归方程为y=0.72x-58.2,张明同学(20岁)身高178 cm,他的体重应该在________kg左右. 答案 69.96
^
解析 用回归方程对身高为178 cm的人的体重进行预测,当x=178时,y=0.72×178-58.2=69.96(kg).
1.判断变量之间有无相关关系,简便可行的方法就是绘制散点图.根据散点图,可看出两个变量是否具有相关关系,是否线性相关,是正相关还是负相关. 2.求回归直线的方程时应注意的问题
(1)知道x与y呈线性相关关系,无需进行相关性检验,否则应首先进行相关性检验.如果两个变量之间本身不具有相关关系,或者说,它们之间的相关关系不显著,即使求出回归方程也是毫无意义的,而且用其估计和预测的量也是不可信的.
^
^
^
^
(2)用公式计算a、b的值时,要先算出b,然后才能算出a.
^
^
^
3.利用回归方程,我们可以进行估计和预测.若回归方程为y=bx+a,则x=x0处的估计值
^
^
^
为y0=bx0+a.
6