[例2]、(2009宁夏海南卷理)(本小题满分12分)某工厂有工人1000名, 其中250名工人参加过短期培训(称为A类工人),另外750名工人参加过长期培训(称为B类工人),现用分层抽样方法(按A类、B类分二层)从该工厂的工人中共抽查100名工人,调查他们的生产能力(此处生产能力指一天加工的零件数)。
(I)求甲、乙两工人都被抽到的概率,其中甲为A类工人,乙为B类工人; (II)从A类工人中的抽查结果和从B类工人中的抽插结果分别如下表1和表2。 表1: 生产能力
100,110? ?110,120? ?120,130? ?130,140? ?140,150? ?分组
x 人数 4 8 5 3
表2:
生产能力分
?110,120? ?120,130? ?130,140? ?140,150?
组
人数 6 y 36 18
(i) 先确定x,y,再在答题纸上完成下列频率分布直方图。就生产能力而言,A类工人
中个体间的差异程度与B类工人中个体间的差异程度哪个更小?(不用计算,可通过观察直方图直接回答结论)
(ii)分别估计A类工人和B类工人生产能力的平均数,并估计该工厂工人的生产能力的平均数(同一组中的数据用该组区间的中点值作代表)。
(五)强化巩固训练
1、一组数据的每一个数据都减去80,得一组新数据。若求的新数据的平均数是1.2,方差是4.4,则原来数据的平均数和方差分别是( )
A、81.2,4.4 B、78.8,4.4 C、81.2,84.4 D、78.8,75.6
2、(2007年广东)图1是某县参加2007年高考的学生身高条形统计图,从左到右的各条形表示的学生人数依次记为A1,A2,?,A10(如A2表示身高(单位:cm)在[150,155)内的学生数)。
图2是统计图1种身高在一定范围内学生人数的一个算法流程图。现要统计身高在160?180cm(含160cm,不含180cm)的学生人数,那么在流程图中的判断框内应填写的条件是
A、i<9 B、i<8 C、i<7 D、i<6
3、(2008年广东文,11)为了调查某厂工人生产某种产品的能力,随机抽查了20位工人某天
生产该产品的数量。产品数量的分组区间为[45,55),[55,65),[65,75),[75,85),[85,95),由此得到频率分布直方图如图3,则这20名工人中一天生产该产品数量在[55,75)的人数是_______ 4、(2009福建卷文)一个容量100的样本,其数据的分组与各组的频数如下表 组别
(0,10] (20,20] (20,30) (30,40) (40,50] (50,60] (60,70]
频数 12
13
24
15
16
13
7
则样本数据落在(10,40)上的频率为( )。
A. 0.13 B. 0.39 C. 0.52 D. 0.64
5、某班通过一次射击测试,在甲、乙两名同学中选出一名同学代表班级参加校射击比赛.这两位同学在相同条件下各射靶5次,所测得的成绩分别如下(单位:环):
甲 9.6 9.5 9.3 9.4 9.7 乙 9.3 9.8 9.6 9.3 9.5
根据测试成绩,你认为应该由__________代表班级参赛。
四.变量间的相关关系 (一)知识梳理
1.常见的两变量之间的关系有两类:一类是确定性的函数关系,另一类是相关关系;相关关
系是指变量间确实存在关系,但又不具备函数关系所要求的_____ ,它们的关系是带有 的
2.如果一个变量的值由小变大,另一个变量的值也 ,这种相关称为正相关,如果一个变量的值由小变大时,另一个变量值 ,这种相关称为负相关
3.如果散点图中点的分布从整体上看都分布在 ,我们用直线 ____________拟合_散点图中的这些点,象这样能用直线_____________近似 表示的相关关系叫做线性相关关系.
2
4.通过Q=? ?yi-bxi-a?求的最小值而得到回归直线,由于平方又叫二乘方,所以这种使“离
i=1n
差平方和为最小”的方法,叫做 .
5
.回归直线方程为 ,其中^b=
i=1
?xiyi-nx y?xi2-nx2
n
n
, ^a=y-^bx.
i=1
6.样本相关系数
i=1
? ?xi-x??yi-y?
=n
i=1n
?xiyi-nx y
2
n
n
--
r=
i=1
?x2i-n
i=1
? ?xi-x?? ?yi-y?
i=1
n
2
n
2
?
x???yi2-ny2?
i=1
当r>0时,表明两个变量 ; 当r<0时,表明两个变量 .
|r|≤1,当r的绝对值越接近于1,表明两个变量的线性相关程度 .r的绝对值越接近于0时,表明两个变量之间线性相关程度 .通常|r|大于 时,认为两个变量有很强的线性相关性. 7.独立性检验:
(1).2×2列联表:假设有两个分类变量A和B,它们的值域分别为{A,A}和{B,B},其样本频数列联表(称2×2列联表)为:
A A 合计
nn11n22-n12n212
χ2=(其中n=n11+n12+n21+n22为样本容量).
n1+n2+n+1n+2
(2).用χ2的大小可以决定是否拒绝原来的统计假设H0,若χ2值较大,就拒绝H0,即拒绝事件A与B无关.
B n11 n21 n+1 B n12 n22 n+2 合计 n1+ n2+ n (3).当χ2>3.841时,则有 的把握说事件A与B有关; 当χ2>6.635时,则有 的把握说事件A与B有关; 当χ≤3.841时,则认为事件A与B .
(二)随堂练习
1. 有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 。
1.(2010·江南十校)最小二乘法的原理是( )
nn2
A.使得?[yi-(a+bxi)]最小B.使得?[yi-(a+bxi)2]最小
i=1
i=1
n2
2
nC.使得?[yi-(a+bxi)]最小D.使得?[yi-(a+bxi)]2最小
i=1
i=1
2.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程中的截距为( )
A.^a=y+^bx B.^a=y+^bx C.^a=y-^bx
3.对于给定的两个变量的统计数据,下列说法正确的是( ) A.都可以分析出两个变量的关系
B.都可以用一条直线近似地表示两者的关系 C.都可以作出散点图
D.都可以用确定的表达式表示两者的关系
4.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:
D.^a=y-^bx
多看电视 少看电视 总计
冷漠 不冷漠 总计 68 20 88 42 38 80 110 58 168 则大约有多大的把握认为多看电视与人变冷漠有关系( ) A.99% C.95%
B.97.5%
D.90%
5.一位母亲记录了儿子3~9岁的身高,数据(略),由此建立的身高与年龄的回归模型为
^
y=7.19x+73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是 ( ) A.身高一定是145.83 cm B.身高在145.83 cm以上 C.身高在145.83 cm左右 D.身高在145.83 cm以下
6.(2010·南通模拟)对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,
y2),?,(xn,yn),则下列说法中不正确的是( ) .
A.由样本数据得到的回归方程^y=^bx+^a必过样本中心(x,y) B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数为r=-0.9362,则变量y和x之间具有线性相关关系 7.(2010·湖南高考文科·T3) 某商品销售量y(件)与销售价格x(元/件)负相关,则其回归方程可能是( )
A. y??10x?200 B. y?10x?200 C. y??10x?200 D. y?10x?200
8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得x2≈3.918,经查临界值表知P(χ2≥3.841)≈0.05.则下列结论中,正确结论的序号是________.
①有95%的把握认为“这种血清能起到预防感冒的作用”; ②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.
9.(2010·南通模拟)对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,
^^^^y2),?,(xn,yn),则下列说法中不正确的是( ) .
A.由样本数据得到的回归方程^y=^bx+^a必过样本中心(x,y) B.残差平方和越小的模型,拟合的效果越好
C.用相关指数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若变量y和x之间的相关系数为r=-0.9362,则变量y和x之间具有线性相关关系