§8 最小二乘估计
[读教材·填要点]
1.回归直线
如果两个变量散点图中点的分布从整体上看大致在一条直线附近,那么称这两个变量之间具有线性相关关系,这条直线叫作回归直线.
2.最小二乘法
求线性回归方程y=bx+a时,使得样本数据的点到它的距离的平方和最小的方法叫作最小二乘法.其中a,b的值由以下公式给出:
????b?????xiyi?nxy2x?nx?ii?1i?1n2n,a=y-bxa,b是线性回归方程的系数.
[小问题·大思维]
1.任给一组数据,我们都可以由最小二乘法得出线性回归方程吗?
提示:用最小二乘法求回归直线的方程的前提是先判断所给数据具有线性相关关系(可利用散点图判断).否则求出的线性回归方程是无意义的.
2.线性回归方程是否经过一定点? --
提示:线性回归方程恒过定点(x,y).
[研一题]
[例1] 下表是某旅游区游客数量与平均气温的对比表:
平均气温(℃) 数量(百个)
若已知游客数量与平均气温是线性相关的,求线性回归方程. -7035-230115
[自主解答] x==,y==,
6363
22
x21+x2+?+x6
-1 20 4 24 10 34 13 38 18 50 26 64 =1+16+100+169+324+676=1 286,
x1y1+x2y2+?+x6y6=-20+96+340+13×38+18×50+26×64=3 474.
- 1 -
35115
--3 474-6××33x1y1+x2y2+?+x6y6-6xy
b==≈1.68,
352-2222
x1+x2+?+x6-6x1 286-6×??3--
a=y-bx≈18.73,
即所求的线性回归方程为y=1.68x+18.73.
[悟一法]
求线性回归方程的步骤:
?1?画出散点图,判断是否具有相关关系;--n2222
?2?计算x,y,∑x=x+x+?+xi12n,=
i1
ni=1
∑xiyi=x1y1+x2y2+?+xnyn.
n
--
∑xy-nxyiii=1--
?3?代入公式b=n,a=y-bx;
-22
∑x-nxi=
i1
?4?写出线性回归方程y=bx+a.
[通一类]
1.某研究机构对高三学生的记忆力x和判断力y进行统计分析,得下表数据:
x y 6 2 8 3 10 5 12 6 已知记忆力x和判断力y是线性相关的,求线性回归方程. -6+8+10+12-2+3+5+6
解:x==9,y==4,
44
i1ni=1
22222
∑x=6+8+10+12=344, i=n
∑xiyi=6×2+8×3+10×5+12×6=158,
158-4×9×414b===0.7,
344-4×9220--
a=y-bx=4-0.7×9=-2.3. 则所求的线性回归方程为y=0.7x-2.3.
[研一题]
[例2] 某种产品的广告费支出x(单位:百万元)与销售额y(单位:百万元)之间有如下对应数据:
x y
2 30 4 40 5 60 6 50 8 70 - 2 -
(1)画出散点图; (2)求线性回归方程;
(3)预测当广告费支出为7百万元时的销售额. [自主解答] (1)
(2)从散点图可以发现,y与x具有线性相关关系,利用计算器求得:
55
--2x=5,y=50,∑xi=145,∑xiyi=1 380, ==
i1
i1
设回归方程为y=bx+a,则
i1
5b=
--
∑xy-5x yii=
i1
5
-22∑x-5x i=
=1 380-5×5×50
=6.5,
145-5×52--
a=y-bx=50-6.5×5=17.5,故所求线性回归方程为y=6.5x+17.5. (3)当x=7时,y=6.5×7+17.5=63.
所以,当广告费支出为7百万元时,销售额约为6 300万元.
[悟一法]
用线性回归方程估计总体的一般步骤:
(1)作出散点图,判断散点是否在一条直线附近;
(2)如果散点在一条直线附近,用公式求出a、b并写出线性回归方程; (3)根据线性回归方程对总体进行估计.
[通一类]
2.假设关于某设备的使用年限x和所支出的维修费用y(单位:万元)有如下的统计资料:
使用年限x 维修费用y
若由资料知y对x呈线性相关关系,试求: (1)回归方程y=bx+a的系数a,b;
(2)使用年限为10年时,试估计维修费用是多少. 解:(1)列表如下:
i xi 1 2 2 3 3 4 4 5 5 6 2 2.2 3 3.8 4 5.5 5 6.5 6 7. 0
- 3 -
yi xiyi x2i 2.2 4.4 4 3.8 11.4 9 i15.5 22.0 16 i16.5 32.5 25 7.0 42.0 36 55--2x=4,y=5, ∑xi=90,∑xiyi=112.3 == --
∑xy=-5x y112.3-5×4×5iii=1b=5==1.23,
-290-5×422
∑xi-5 x=
i15
--
a=y-bx=5-1.23×4=0.08. (2)回归方程是y=1.23x+0.08,
当x=10时,y=1.23×10+0.08=12. 38(万元), 即估计使用10年时维修费用是12.38万元.
有人统计了同一个省的6个城市某一年的人均国民生产总值(即人均GDP)和这一年各城市患白血病的儿童数量,如下表:
人均GDP(万元) 患白血病的儿童数
(1)画出散点图,并判定两个变量是否具有线性相关关系;
(2)通过计算可得两个变量的线性回归方程为y=23.25x+102.25,假如一个城市的人均GDP为12万元,那么可以断言,这个城市患白血病的儿童一定超过380人,请问这个断言是否正确?
[错解] (1)根据表中数据画散点图,如图所示,从图可以看出,虽然后5个点大致分布在一条直线的附近,但第一个点离这条直线太远,所以这两个变量不具有线性相关关系.
(2)将x=12代入y=23.25x+102.25,得y=23.25×12+102.25=381.25>380,所以上述断言是正确的.
[错因] 在第(1)问中,是否具有线性相关关系,要看大部分点、主流点是否分布在一条直线附近,个别点是不影响“大局”的,所以可断定这两个变量具有线性相关关系.在第(2)问中,381.25只是一个估计值,由它不能断言这个城市患白血病的儿童一定超过380人.如果这个城市的污染很严重,有可能人数远远超过380,若这个城市的环境保护的很好,则人数就有可能远远低于380.
[正解] (1)根据表中数据画散点图,如错解图所示,从图可以看出,在6个点中,虽然第一个点离这条直线较远,但其余5个点大致分布在这条直线的附近,所以这两个变量具有线
- 4 -
10 351 8 312 6 207 4 175 3 132 1 180 性相关关系.
(2)将x=12代入y=23.25x+102.25,得y=23.25×12+102.25=381.25>380,即便如此,但因381.25只是一个估计值,会受其他情况的影响,所以不能断言这个城市患白血病的儿童一定超过380人.
1.已知x与y之间的一组数据:
x y
则y与x的线性回归方程y=bx+a必过点( ) A.(2,2) C.(1,2)
B.(1.5,0) D.(1.5,4) 0 1 1 3 2 5 3 7 1+2+31+3+5+7
解析:x==1.5,y==4.
44答案:D
2.工人工资y(元)依劳动生产率x(千元)变化的回归直线方程为y=80x+50,则下列判断正确的是( )
A.劳动生产率为1 000元时,工资为130元 B.劳动生产率提高1 000元时,工资约提高80元 C.劳动生产率提高1 000元时,工资约提高130元 D.当月工资210元时,劳动生产率为2 000元
解析:回归直线的斜率为80,所以x每增加1个单位,y约增加80,即劳动生产率提高1000元时,工资提高约80元.
答案:B
3.下表是某厂1到4月份用水量情况(单位:百吨)的一组数据:
月份x 用水量y
用水量y与月份x之间具有线性相关关系,其线性回归方程为y=-0.7x+a,则a的值为( )
A.5.25 C.2.5
B.5 D.3.5 1 4.5 2 4 3 3 4 2.5
- 5 -