第54讲 变量的相关性、回归分析、独立性检验

2018-12-17 16:04

2013年高考第一轮复习资—理科数学

第 60讲 变量的相关性、回归分析、独立性检验

【考点解读】

1.通过对典型案例(如\肺癌与吸烟有关吗\等)的探究,了解独立性检验(只要求2×2列联表)的基本思想、方法及初步应用;

2.通过对典型案例(如\质量控制\、\新药是否有效\等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用;

3.通过对典型案例(如\昆虫分类\等)的探究,了解聚类分析的基本思想、方法及初步应用; 4.通过对典型案例(如\人的体重与身高的关系\等)的探究,进一步了解回归的基本思想、方法及初步应用。

【知识扫描】

1.回归分析

(1)定义:对具有 的两个变量进行统计分析的一种常用方法.

(2)随机误差:线性回归模型用y=bx+a+e表示,其中a和b为模型的 , 称为随机误差.

(3)样本点的中心在具有线性相关关系的数据?x1,y1?,?x2,y2?......?xn,yn?中,回归方程的截距和斜率的最小二乘估计公式分别为:

??b1x??xini?1ni?1?(xi?x)(yi?y)?(xi?x)n2n?xa??y?b(x,y)i?11ny??yini?1其中 称为样本点的中心. (4)相关系数 ①r=

②当r >0时,表明两个变量 ; 当r <0时,表明两个变量 .

r 的绝对值越接近于1,表明两个变量的线性相关性 .r 的绝对值越接近于0时,表明两个变

ni?1?(xi?x)(yi?y)2n2ni?1?(xi?x)?(yi?y)i?1?i?1?xiyi?nxy?nx)(?yi2?ny)i?12n2n(?xi2i?1n 1

2013年高考第一轮复习资—理科数学 量之间 .通常|r|大于 时,认为两个变量有很强的线性相关性. 2.残差分析

(1)总偏差平方和

n

2(y?y)? 把每个效应(观测值减去总的平均值)的平方加起来即: i .

i?1(2)残差

数据点和它回归直线上相应位置的差异(yi - y ? )是 的效应,称 e ?i ? y i ? y? i 为残差. (3)残差平方和 ? ( y i ? y?i ) 2.

i?1nni

2

(4)相关指数R= 1 ? i ?n1 .

i?1?i)?(yi?y?(yi?y)22R2的值越大,说明残差平方和 ,也就是说模型的拟合效果越好.在线性回

归模型中,R2表示解释变量对预报变量变化的贡献率,R2越接近于1,表示回归的效果越好. 3.独立性检验

(1)分类变量:变量的不同“值”表示个体所属的 ,像这类变量称为分类变量.

(2)列联表:列出两个分类变量的 ,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2 }和{y1,y2 },其样本频数列联表(称为2×2列联表)为 2×2列联表

) , 其中n=a+b+c+d为样本容量. 构造一个随机变量K2= n ( ad ? bc

(3)独立性检验

利用随机变量K2 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.

2(a?b)(c?d)(a?c)(b?d)【考计点拔】

牛刀小试:

1. 对于线性相关系数r,叙述正确的是 ( )

2

2013年高考第一轮复习资—理科数学 A |r|∈(0,+∞), |r|越大,相关程度越大,反之,相关程度越小 B |r|∈(-∞,+∞), r越大,相关程度越大,反之,相关程度越小 C |r|≤1且|r|越接近1,相关程度越大,|r|越接近0,相关程度越小 D 以上说法都不对 [解析]C

2. (2011辽宁高考)调查了某地若干户家庭的年收入x(单位:万元)和年饮食支出y(单位:万元),

调查显示年收入x与年饮食支出y具有线性相关关系,并由调查数据得到y对x的回归直线方程:

??0.254x?0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加y____________万元.

[解析]0.254

?y3.对有线性相关关系的两个变量建立的回归直线方程为=a+bx中, 回归系数b ( )

A 可以小于0 B 只能大于0 C 能等于0 D 只能小于0

[解析] A [ b=0时,则r=0,这时不具有有线性相关关系,但b能大于0也能小于0]

4. (2011江西高考)变量Y与X相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则 ( ) A.r2?r1?0 B. 0?r2?r1 C.r2?0?r1 D. r2?r1

答案:C 解析: r???x?x??yii?1n2nii?1ni?yi? 第一组变量正相关,第二组变量负相关。

2??x?x???y?y?i?1

5.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表.试问能以多大把握认为婴儿的性别与出生时间有关系. 出生时间 性别 男婴 女婴 合计 2晚上 24 8 32 白天 31 26 57 合计 55 34 89 89?(24?26?31?8)2K??3.7654?34?32?57[解析] ,?3.76?3.841,没有理由认为“婴儿的性别”与“出生时

间”有关

【典例解析】

3

2013年高考第一轮复习资—理科数学

考点一: 线性回归分析

【例1】某研究性学习小组对春季昼夜温差大小与某花卉种子发芽多少之间的关系进行研究,他们分别记录了3月1日至3月5日的每天昼夜温差与实验室每天每100颗种子浸泡后的发芽数,得到如下资料:

日期 3月1日 3月2日 3月3日 3月4日 3月5日

o

温差x(C) 10 11 13 12 8 发芽数y(颗) 23 25 30 26 16

(I)从3月1日至3月5日中任选2天,记发芽的种子数分别为m,n,求事件“m,n均小于25”的概率;

??a??bx?; (II)请根据3月2日至3月4日的数据,求出y关于x的线性回归方程y(III)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性

回归方程是可靠的,试问(II)所得的线性回归方程是否可靠? ??a????bx?,其中b(参考公式:回归直线方程式y?xyii?1nni?nxy?nx2?) ??y?bx,a?xi?12i【答案】(I)m,n构成的基本事件(m,n)有:(23,25),(23,30),(23,26),(23,16),(25,30),(25,26),(25,16),(30,26),(30,16),(26,16),共有10个. ????????????????????????2分

1其中“m,n均小于25”的有1个,其概率为.

10(II)∵x?12,y?27, 11?25?13?30?12?26?3?12?275?.

112?132?122?3?12225于是,a?27??12??3. 25??x?3. 故所求线性回归方程为y25??x?3, (III)由(2)知y2 当x=10时,y=22;当x=8时,y=17.

与检验数据的误差均为1,满足题意.故认为得到的线性回归方程是可靠的.

【解析】略

∴b?

【变式训练1】某种产品的广告费支出x与销售额y(单位:百万元)之间有如下对应数据:

x y (1)求线性回归方程;

(2)预测当广告费支出7(百万元)时的销售额。

2 30 4 40 5 60 6 50 8 70 4

2013年高考第一轮复习资—理科数学 (用最小二乘法求线性回归方程系数公式b?

?xy1i?1nn1?nxy?nx2,a?y?bx) ?xi?12i【答案】见解析

【解析】(1)x?5,y?50.??xi?152i?145,?xiyi?1380i?15设回归方程为y?bx?a则b??xyii?15i?5xy?xi?1522i?5x?1380?5?5?50?145?5?52?6.5a?y?bx?50?6.5?5?17.5,故回归方程为y?6.5x?17.5(2)当x?7时y?6.5?7?17.5?63?所以当广告费支出7(百万元)时,销售额约为63(百万元)

【变式训练2】下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据

(1)请画出上表数据的散点图;

(2)请根据上表提供的数据,求出y关于x的线性回归方程y?a?bx;

(3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测:生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?

(参考公式:y?a?bx,其中b??xyii?1nni?nxy?nx?2,a?y?bx)

?xi?1i2

【答案】解: (1)如下图

5


第54讲 变量的相关性、回归分析、独立性检验.doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:自制磁悬浮无线输电教具的设计和制作

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: