第3讲 统计与统计案例
考情解读 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中、低档题.
1.随机抽样
(1)简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少.
(2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多.
(3)分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成.
2.常用的统计图表 (1)频率分布直方图 ①小长方形的面积=组距×
频率
=频率; 组距
②各小长方形的面积之和等于1;
频率1
③小长方形的高=,所有小长方形的高的和为. 组距组距(2)茎叶图
在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数
数字特征 众数 样本数据 出现次数最多的数据 将数据按大小依次排列,处在最中间位把频率分布直方图划分左右两个面积中位数 置的一个数据(或最中间两个数据的平均数) 平均数 样本数据的算术平均数 每个小矩形的面积乘以小矩形底边中点的横坐标之和
频率分布直方图 取最高的小长方形底边中点的横坐标 相等的分界线与x轴交点的横坐标
12222
(2)方差:s=[(x1-x)+(x2-x)+?+(xn-x)].
n标准差: s=
1[?x1-x?2+?x2-x?2+?+?xn-x?2]. n
4.变量的相关性与最小二乘法
(1)相关关系的概念、正相关和负相关、相关系数.
(2)最小二乘法:对于给定的一组样本数据(x1,y1),(x2,y2),?,(xn,yn),通过求Q=? (yi
i=1
2
^
^
^
n
-a-bxi)最小时,得到线性回归方程y=bx+a的方法叫做最小二乘法. 5.独立性检验
对于取值分别是{x1,x2}和{y1,y2}的分类变量X和Y,其样本频数列联表是
x1 x2 总计 2
2
y1 a c a+c y2 b d b+d 总计 a+b c+d n n?ad-bc?2
则K(χ)=(其中n=a+b+c+d为样本容量).
?a+b??c+d??a+c??b+d?
热点一 抽样方法
例1 (1)(2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,?,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14
(2)(2014·石家庄高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________. 思维启迪 (1)系统抽样时需要抽取几个个体,样本就分成几组,且抽取号码的间隔相同;(2)分层抽样最重要的是各层的比例. 答案 (1)B (2)200
720-480840
解析 (1)由=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为4220=
240
=12. 20
160160-150
(2)本题属于分层抽样,设该学校的教师人数为x,所以=,所以x=200.
3 200x
思维升华 (1)随机抽样各种方法中,每个个体被抽到的概率都是相等的;(2)系统抽样又称“等距”抽样,被抽到的各个号码间隔相同;分层抽样满足:各层抽取的比例都等于样本容量在总体容量中的比例.
(1)某校高一、高二、高三分别有学生人数为495,493,482,现采用系统抽样方法,
抽取49人做问卷调查,将高一、高二、高三学生依次随机按1,2,3,?,1 470编号,若第1组有简单随机抽样方法抽取的号码为23,则高二应抽取的学生人数为( ) A.15 B.16 C.17 D.18
(2)(2014·广东)已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.200,20 C.200,10 答案 (1)C (2)A
解析 (1)由系统抽样方法,知按编号依次每30个编号作为一组,共分49组,高二学生的编号为496到988,在第17组到第33组内,第17组抽取的编号为16×30+23=503,为高二学生,第33组抽取的编号为32×30+23=983,为高二学生,故共抽取高二学生人数为33-16=17,故选C.
(2)该地区中、小学生总人数为3 500+2 000+4 500=10 000,
则样本容量为10 000×2%=200,其中抽取的高中生近视人数为2 000×2%×50%=20,故选A.
热点二 用样本估计总体
例2 (1)(2014·山东)为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,?,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )
B.100,20 D.100,10
A.6 B.8 C.12 D.18
(2)PM2.5是指大气中直径小于或等于2.5微米的颗粒物,也称为可入肺颗粒物,如图是根据某地某日早7点至晚8点甲、乙两个PM2.5监测点统计的数据(单位:毫克/每立方米)列出的茎叶图,则甲、乙两地浓度的方差较小的是( ) A.甲 C.甲乙相等
B.乙 D.无法确定 甲 6 3
9 2 3 6
2 3 1 1 4 7
0.04 0.05 0.06 0.07 0.08 0.09
1 9 2 9 7 2
2 9 4 乙
3 6
6
思维启迪 (1)根据第一组与第二组的人数和对应频率估计样本总数,然后利用第三组的频率和无疗效人数计算;(2)直接根据公式计算方差. 答案 (1)C (2)A
20
解析 (1)志愿者的总人数为=50,
?0.16+0.24?×1所以第三组人数为50×0.36=18, 有疗效的人数为18-6=12.
(2)x甲=(0.042+0.053+0.059+0.061+0.062+0.066+0.071+0.073+0.073+0.084+0.086+0.097)÷12≈0.068 9,
x乙=(0.041+0.042+0.043+0.046+0.059+0.062+0.069+0.079+0.087+0.092+0.094+0.096)÷12≈0.067 5,
1
s2=[(0.042-0.068 9)2+(0.053-0.068 9)2+…+(0.097-0.068 9)2]≈0.000 212.
1212222
s=[(0.041-0.067 5)+(0.042-0.067 5)+…+(0.096-0.067 5)]≈0.000 429.
12所以甲、乙两地浓度的方差较小的是甲地.
思维升华 (1)反映样本数据分布的主要方式:频率分布表、频率分布直方图、茎叶图.关于频率分布直方图要明确每个小矩形的面积即为对应的频率,其高低能够描述频率的大小,高考中常常考查频率分布直方图的基本知识,同时考查借助频率分布直方图估计总体的概率分布和总体的特征数,具体问题中要能够根据公式求解数据的均值、众数和中位数、方差等. (2)由样本数据估计总体时,样本方差越小,数据越稳定,波动越小.
(1)某商场在庆元宵促销活动中,对元宵节9时至14时的销售额进行统计,其频
率分布直方图如图所示,已知9时至10时的销售额为2.5万元,则11时至12时的销售额为________万元.
(2)(2014·陕西)设样本数据x1,x2,?,x10的均值和方差分别为1和4,若yi=xi+a(a为非零常数,i=1,2,?,10),则y1,y2,?,y10的均值和方差分别为( ) A.1+a,4 C.1,4
答案 (1)10 (2)A
解析 (1)由频率分布直方图可知: 0.102.5
=,所以x=10. 0.40x
x1+x2+?+x10(2)=1,yi=xi+a,
10
所以y1,y2,?,y10的均值为1+a,方差不变仍为4. 故选A.
热点三 统计案例
例3 (1)以下是某年2月某地区搜集到的新房屋的销售价格y和房屋的面积x的数据.
房屋面积x/m2 销售价格y/万元 ^^^B.1+a,4+a D.1,4+a
115 24.8 ^110 21.6 80 18.4 135 29.2 105 22 根据上表可得线性回归方程y=bx+a中的b=0.196 2,则面积为150 m2的房屋的销售价格约为________万元.
(2)(2014·江西)某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )
表1
成绩 性别 男 女 总计 6 10 16 表2 14 22 36 20 32 52 不及格 及格 总计