散点图是进行线性回归分析的主要手段,其作用如下:
一是判断两个变量是否具有线性相关关系,如果样本点呈条状分布,则可以断定两个变量有较好的线性相关关系;
二是判断样本中是否存在异常. (2)残差图:
残差图可以用来判断模型的拟合效果,其作用如下:
一是判断模型的精度,残差点所分布的带状区域越窄,说明模型的拟合精度越高,回归方程的预报精度越高.
二是确认样本点在采集中是否有人为的错误.
[典例] (全国卷Ⅲ)如图是我国2008年到2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:
参考数据:?yi=9.32,?tiyi=40.17,
i=1
i=1
7
7
i=1
? ?yi-y?2=0.55,7≈2.646.
7
i=1
? ?ti-t??yi-y?
,
n
参考公式:相关系数r=
n
n
i=1
i=1
? ?ti-t?2? ?yi-y?2
n
^^^^
回归方程y=a+bt中斜率和截距的最小二乘估计公式分别为:b=
i=1
? ?ti-t??yi-y?
^
,a=y
i=1
? ?ti-t?2
n
^
-bt.
[解] (1)由折线图中数据和附注中参考数据得
36
t=4,? (ti-t)=28,
i=1
7
2
i=1
? ?yi-y?2=0.55,
7
7
i=1
? (ti-t)(yi-y)=?tiyi-t?yi=40.17-4×9.32=2.89,
i=1
i=1
77
r≈
2.89
≈0.99.
2×2.646×0.55
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
9.32
(2)由y=≈1.331及(1)得
7
^b=
i=1
? ?ti-t??yi-y?
=i=1
7
? ?ti-t?2
7
2.89
≈0.103, 28
^^
a=y-bt≈1.331-0.103×4≈0.92. ^
所以y关于t的回归方程为y=0.92+0.10t. 将2016年对应的t=9代入回归方程得 ^
y=0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量将约为1.82亿吨. [类题通法]
回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法,其步骤是先画出散点图,并对样本点进行相关性检验,在此基础上选择适合的函数模型去拟合样本数据,从而建立较好的回归方程,并且用该方程对变量值进行分析;有时回归模型可能会有多种选择(如非线性回归模型),此时可通过残差分析或利用相关指数R2来检查模型的拟合效果,从而得到最佳模型.
[题组训练]
1.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则( )
A.r2 B.0 解析:选C 画散点图,由散点图可知X与Y是正相关,则相关系数r1>0,U与V是负相关,相关系数r2<0,故选C. 2.寒假中, 某同学为组织一次爱心捐款, 在网上给网友发了张帖子, 并号召网友转发, 37 下表是发帖后一段时间收到帖子的人数统计: 天数x 人数y (1)作出散点图,并猜测x与y之间的关系. (2)建立x与y的关系, 预报回归模型. (3)如果此人打算在帖子传播10天时进行募捐活动, 根据上述回归模型, 估计可去多少人. 解:(1)画出散点图如图所示. 1 7 2 11 3 21 4 24 5 66 6 115 7 325 从散点图可以看出x与y不具有线性相关关系, 同时可发现样本点分布在某一个函数曲线y=kemx的周围, 其中k, m是参数. (2)对y=kemx两边取对数,把指数关系变成线性关系. 令z=ln y,则变换后的样本点分布在直线z=bx+a(a=ln k, b=m)的周围, 这样就可以利用线性回归模型来建立x与y之间的非线性回归方程了, 数据可以转化为: 天数x 人数的 对数z ^ 求得回归直线方程为z=0.620x+1.133, ^+ 所以y=e0.620x1.133. ^×+ (3)当x=10, 此时y=e0.620101.133≈1 530(人). 所以估计可去1 530人. 独立性检验 (1)近几年高考中对独立性检验的考查频率有所降低,题目多以解答题形式出现,一般为容易题,多与概率、统计等内容综合命题. (2)独立性检验的基本思想类似于数学中的反证法,要确认“两个分类变量有关系” 这一结论成立的可信程度,首先假设该结论不成立,即假设结论“两个分类变量没有关系” 成立,在该假设下构造的随机变量K2应该很小,如果由观测数据计算得到的K2的观测值k很大,则在一定程度上说明假设不合理,根据随机变量K2的含义,可以通过概率P(K2≥6.635)≈0.01来评 38 1 2 3 4 5 6 7 1.946 2.398 3.045 3.178 4.190 4.745 5.784 价该假设不合理的程度,由实际计算出的k>6.635,说明该假设不合理的程度约为99%,即“两个分类变量有关系” 这一结论成立的可信程度约为99%. [考点精要] 在实际问题中常用的几个数值 (1)K2≥6.635表示认为“X与Y有关系”犯错误的概率不超过0.01. (2)K2≥3.841表示认为“X与Y有关系”犯错误的概率不超过0.05. (3)K2≥2.706表示认为“X与Y有关系”犯错误的概率不超过0.1. [典例] 某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数,如图所示.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食为肉类为主.) (1)根据茎叶图,帮助这位同学说明其亲属30人的饮食习惯. (2)根据以上数据完成如表所示的2×2列联表. 50岁以下 50岁以上 总计 (3)在犯错误的概率不超过0.01的前提下,是否能认为“其亲属的饮食习惯与年龄有关”? [解] (1)30位亲属中50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉类为主. (2)2×2列联表如表所示: 50岁以下 50岁以上 总计 2 主食蔬菜 主食肉类 总计 主食蔬菜 4 16 20 主食肉类 8 2 10 总计 12 18 30 30×?8-128?230×120×120(3)随机变量K的观测值k===10>6.635, 12×18×20×1012×18×20×10故在犯错误的概率不超过0.01的前提下认为“其亲属的饮食习惯与年龄有关”. 39 [类题通法] 独立性检验问题的求解策略 (1)等高条形图法:依据题目信息画出等高条形图,依据频率差异来粗略地判断两个变量的相关性. (2)K2统计量法:通过公式 n?ad-bc?2 K= ?a+b??c+d??a+c??b+d? 2 先计算观测值k,再与临界值表作比较,最后得出结论. [题组训练] 1.下表是某地区的一种传染病与饮用水的调查表: 干净水 不干净水 总计 (1)能否在犯错误概率不超过0.01的前提下认为这种传染病与饮用水的卫生程度有关,请说明理由. (2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得病的有9人,不得病的有22人.按此样本数据分析能否在犯错误概率不超过0.025的前提下认为这种疾病与饮用水有关. 解:(1)把表中的数据代入公式得 830×?52×218-466×94?2 K的观测值k=≈54.21. 146×684×518×312 2 得病 52 94 146 不得病 466 218 684 总计 518 312 830 ∵54.21>6.635, 所以在犯错误的概率不超过0.01的前提下,认为该地区这种传染病与饮用水不干净有关. (2)依题意得2×2列联表: 干净水 不干净水 总计 86×?5×22-50×9?2 此时,K的观测值k=≈5.785. 14×72×55×31 2 得病 5 9 14 不得病 50 22 72 总计 55 31 86 因为5.785>5.024, 所以能在犯错误概率不超过0.025的前提下认为该种疾病与饮用水不干净有关. 40