初高中精品文档
3.2 回归分析
1.线性回归模型 (1)随机误差
具有线性相关关系的两个变量的取值x、y,y的值不能由x完全确定,可将x,y之间的关系表示为y=a+bx+ε,其中a+bx是确定性函数,ε称为随机误差.
(2)随机误差产生的主要原因
①所用的确定性函数不恰当引起的误差; ②忽略了某些因素的影响; ③存在观测误差.
(3)线性回归模型中a,b值的求法 y=a+bx+ε称为线性回归模型. a,b的估计值为a ∧,b ∧,则
--
∑xy-nxy??b ∧=
∑x-n(x) ???a ∧=y-b ∧ -xi=1nii2
2
ni=1i(4)回归直线和线性回归方程
直线y_∧=a_∧+b_∧x称为回归直线,此直线方程即为线性回归方程,a ∧称为回归截距,b ∧称为回归系数,y ∧称为回归值.
2.样本相关系数r及其性质
--
∑xiyi-nxyi=1n22n(1)r=n22.
(∑xi-n(x))(∑yi-n(y))i=1i=1(2)r具有以下性质
①|r|≤1.
②|r|越接近于1,x,y的线性相关程度越强. ③|r|越接近于0,x,y的线性相关程度越弱. 3.对相关系数r进行显著性检验的基本步骤
(1)提出统计假设H0:变量x,y不具有线性相关关系.
(2)如果以95%的把握作出判断,那么可以根据1-0.95=0.05与n-2在教材附录2中查出一个r的临界值r0.05(其中1-0.95=0.05称为检验水平).
(3)计算样本相关系数r.
欢迎使用下载!
初高中精品文档
(4)作出统计推断:若|r|>r0.05,则否定H0,表明有95%的把握认为x与y之间具有线性相关关系;若|r|≤r0.05,则没有理由拒绝原来的假设H0,即就目前数据而言,没有充分理由认为y与x之间有线性相关关系.
1.在线性回归方程中,b既表示回归直线的斜率,又表示自变量x的取值增加一个单位时,函数值y的改变量.
2.通过回归方程y ∧=a ∧+b ∧x可求出相应变量的估计值.
3.判断变量之间的线性相关关系,一般用散点图,但在作图中,由于存在误差,有时很难判断这些点是否分布在一条直线的附近,从而就很难判断两个变量之间是否具有线性相关关系,此时就必须利用线性相关系数来判断.
[例1] 假设关于某设备的使用年限x(年)和所支出的维修费用y(万元)有如下的统计资料:
x y 2 2.2 3 3.8 4 5.5 5 6.5 6 7.0 若由数据可知,y对x呈现线性相关关系. (1)求线性回归方程;
(2)估计使用年限为10年时,维修费用是多少?
[思路点拨] 代入数值求线性回归方程,然后把x=10代入,估计维修费用. [精解详析] (1)列表如下:
i 1 2 3 4 5 xi 2 3 4 5 6 yi 2.2 3.8 5.5 6.5 7.0 xiyi 4.4 11.4 22.0 32.5 42.0 x24 9 16 25 36 i 2经计算得:x=4,y=5,∑5,i=1xi=90,∑5,i=1xiyi=112.3,
a ∧=y-b ∧·x=0.08,
所以线性回归方程为y ∧=a ∧+b ∧x=0.08+1.23x. (2)当x=10时,y ∧=0.08+1.23×10=12.38(万元),
欢迎使用下载!
初高中精品文档
即若估计使用年限为10年时,维修费用为12.38万元. [一点通] 线性回归分析的步骤:
(1)列出散点图,从直观上分析数据间是否存在线性相关关系;
22
(2)计算x,y,∑n,i=1xi,∑n,i=1yi,∑n,i=1xiyi;
(3)代入公式求出y ∧=b ∧x+a ∧中参数b ∧,a ∧的值; (4)写出线性回归方程,并对实际问题作出估计.
1. 某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如下表:
x y 6 2 8 3 10 5 12 6
则y对x的线性回归方程为_________________________________________________. -6+8+10+12-2+3+5+6
解析:∵x==9,y==4,
44
故y对x的线性回归方程为y ∧=0.7x-2.3.
答案:y ∧=0.7x-2.3
2.某班5名学生的数学和物理成绩如表:
学生学科 数学成绩(x) 物理成绩(y) A 88 78 B 76 65 C 73 71 D 66 64 E 63 61 (1)画出散点图;
(2)求物理成绩y对数学成绩x的线性回归方程;
(3)一名学生的数学成绩是96,试预测他的物理成绩. 解:(1)散点图如图.
1
(2)∵x=× (88+76+73+66+63)=73.2.
5
y=×(78+65+71+64+61)=67.8.
5
15
i=1
∑xiyi=88×78+76×65+73×71+66×64+63×61=25 054.
欢迎使用下载!
初高中精品文档
5
又∑xi=88+76+73+66+63=27 174. i=1
222222
∴y对x的线性回归方程是y ∧=0.625x+22.05. (3)当x=96时,y ∧=0.625×96+22.05≈82. 可以预测他的物理成绩是82.
[例2] 现随机抽取了某中学高一10名在校学生,他们入学时的数学成绩(x)与入学后第一次考试的数学成绩(y)如下:
学生号 1 120 84 2 108 64 3 117 84 4 104 68 5 103 69 6 110 68 7 104 69 8 105 46 9 99 57 10 108 71 x y 请问:这10名学生的两次数学成绩是否具有线性关系? [思路点拨] 可先计算线性相关系数r的值,然后与r0.05比较,进而对x与y的相关性作出判断.
[精解详析] x==68.
11
(120+108+…+99+108)=107.8,y=(84+64+…+57+71)1010
所以相关系数为
73 796-10×107.8×68
r= 22
(116 584-10×107.8)(47 384-10×68)≈0.751.
由检验水平0.05及n-2=8, 在附录2中查得r0.05=0.632, 因为0.751>0.632,
由此可看出这10名学生的两次数学成绩具有较强的线性相关关系. [一点通] 利用相关系数r进行判断相关关系,需要应用公式计算出r的值,由于数据
欢迎使用下载!
初高中精品文档
较大,需要借助计算器,但计算时应该特别细心,避免出现计算错误.
3.对于回归分析,有下列叙述: (1)在回归分析中,变量间的关系若是非确定性关系,则因变量不能自由变量惟一确定. (2)线性相关系数可以是正的或是负的.
2
(3)回归分析中,如果r=1或r=±1,说明x与y之间完全线性相关. (4)样本相关系数r∈(-∞,+∞). 判断其说法是否正确. 解:由回归模型及其性质易知(1),(2),(3)是正确的.相关系数的取值范围应为|r|≤1,所以(4)是错误的.
4.一台机器由于使用时间较长,但还可以使用,它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点的零件的多少,随机器运转的速度而变化,下表为抽样试验的结果:
转速x(转/秒) 每小时生产有缺点的零件数y(件) 对变量y与x进行线性相关性检验.
--
解:由题中数据可得x=12.5,y=8.25,∑xiyi=438, --22
4x y=412.5,∑xi=660,∑yi=291,所以
4
4
4
16 11 14 9 12 8 8 5 (660-625)×(291-272.25)25.5=≈0.995.
656.25
由检验水平0.05及n-2=2在教材附录表2中查得r0.05=0.950,因为r>r0.05,所以y与x具有线性相关关系.
对两个相关变量进行线性回归分析时,首先判断两个变量是否线性相关,可以通过散点图和相关系数判断,然后再求线性回归方程,对问题进行预测,否则求出的回归方程无意义,预测也无价值.
=
438-412.5
欢迎使用下载!