第6章 直线回归与相关
教学目标
1.正确理解回归、相关分析的意义及有关概念 2.掌握直线回归、相关分析的方法 3.掌握常见的可直线化曲线回归分析方法
1 回归与相关的概念
在自然界中,各种变量间的关系大致可分为两大类:一类是确定性关系,又称函数关系,即当变量x的值取定之后,变量y有唯一确定的值与之对应。例如,当食品的销售价格a不变时,销售量x与销售额y之间就有函数关系y=ax,当x的值取定后,y的值就完全确定了。另一类是非确定性关系,当变量x的值取定后,y有若干种可能取值。例如,食品的价格y与市场需求量x之间的关系,当需求量增多时价格上涨,需求量减少时价格下跌,但价格y与需求量x之间并不完全确定。当x的值确定后,y却是一个随机变量,即他们之间既有密切的关系,又无法由一个变量的取值精确地定出另一变量的值。在一定范围内,对一个变量的任一数值(xi),虽然没有另一个变量的一个确定数值yi与之对应,但是却有一个特定的yi的条件概率分布与之对应,这种变量之间的不确定性关系,称为统计相关(relationship)关系。
需要指出的是,函数与相关虽是两种不同类型的变量关系,但他们之间并无严格的界限。这是由于测量误差的影响,使得函数关系也表现出某种程度的不确定性;另一方面,从一定的统计意义上讲,两个相关变量间又可能存在着某种确定的内在规律。
存在相关关系的变量称为相关变量。这类变量间的关系是统计学中回归分析(regression analysis)与相关分析(correlation analysis)所要讨论的问题。变量间的关系是十分复杂的,不同的变量间往往存在着不同的关系。本章仅讨论两个变量间的关系,变量间更复杂的关系将在多元回归与相关分析中介绍。统计学中对于x和y两个变量间的关系有两种理论模型,即回归模型与相关模型。在前者x和y是因果关系,而后者x和y是平行变化的关系。
回归分析是对符合回归理论模型的资料进行统计分析的一种数理统计方法。它通过对大量观测数据的统计分析,揭示出相关变量间的内在规律,主要包括:
(1)找出变量间相关关系的近似数学表达式——回归方程; (2)检验回归方程的效果是否显著;
(3)由一个或几个变量的值,通过回归方程来预测或控制另一变量的值。
在回归分析中,把可以控制或能精确观测的变量称为自变量(independent variable),常用x表示;把另一与x有密切关系,但取值却具有随机性的变量称为因变量(dependent variable),亦叫依变量,常用y表示。
对符合相关理论模型的资料进行统计分析称为相关分析,这一分析是要测定两个变量在相关关系上的密切程度和性质。在实际工作中,回归和相关并不能截然分开。一是因为两变量存在回归关系必然有相关,二是因为由回归可获得相关的一些重要信息,由相关也可获得回归的一些重要信息。
回归分析和相关分析的类型很多。包括一个依变量一个自变量的回归分析称为一元回归分析,它又分为直线回归分析和曲线回归分析两类;包括一个依变量和多个自变量的回归分析为多元回归分析,它又分为多元线性回归分析,曲面(非线性)回归分析两类。对两个变量的直线关系进行相关分析为直线相关分析;对多个变量进行相关分析时,研究一个变量与多个变量间的线性相关为复相关分析;研究在其余变量保持
1
不变的情况下两个相关变量间的线性相关为偏相关分析,本章仅介绍两个变量间的直线回归、能直线化的曲线回归及直线相关分析。
2 直线回归
2.1 直线回归方程的建立
设x是一个普通变量(自变量),y是一个可观测其值的随机变量(依变量),设对(x,y)作了n次观测,得下表,试求出y与x间相互关系的近似的数学表达式。
表6-1 (x,y)数对
x y
x1 y1
x2 y2
x3 y3
? ?
xn yn
2.1.1 数学模型
为了看出变量x与y间的关系,一种常用的,也是较直观的办法是在直角坐标系中描出点(xi,yi)的图形,称为散点图(scatter diagram),如图6-1。
如果点(xi,yi)(i?1,2,?,n)呈直线趋势分布,我们自然会想到x与y间存在着一种近似的直线关系,即有模型:
yi??0??xi??i (6-1)
其中,?0,?是未知回归参数,?i是相互独立的随机误差,它是一个随机变量,且设?i?N(0,?2)。这个模型可理解为,对于自变量x的每一个特定的取值xi,y都有一个服从正态分布的取值范围与之对应,这个正态分布的期望是
?0??xi,方差是?2。
图6-1 x, y数对散点图
2.1.2 参数?0,?的估计
注意到y?N(?0??x,?2),如果我们能求得?0、?的估计值a、b,则对于给定的x,E(y)的估计
?,而方程 值为a?bx,记为y??a?bx (6-2) y称为y对x的直线回归方程(linear regression equation),其图形称为回归直线。
??a?bx尽可能地靠近点那么,怎样来估计参数?、?呢?一种自然的想法是使图6-1中的回归直线y(xi,yi)(i?1,2,?,n),即应使离回归平方和(sum of squares due to deviation from regression) 亦称剩余平方
和(residual sum of squares)
?i)??(y??a?bxi)2 (6-3) Q??(yi?y2i?1i?1nn达到最小,这就是最小二乘(平方)(least squares)法的原理。
2
由求二元函数极值的方法,只须求Q关于a、b的偏导数,并令其等于零,即
n??Q??2?(yi?a?bxi)?0???ai?1 (6-4) ??Qn???2?(yi?a?bxi)xi?0??bi?1?
经整理得关于a、b的线性方程组:
nn??na??xib??yi?i?1i?1 (6-5) ?nnn?xa?x2b?xiyi???ii?i?1i?1?i?1称(6-5)式为正规方程组(normal equations)。解此方程组即得:
a?y?bx (6-6)
b??(xi?1nni?x)(yi?y)?iSPxySSx (6-7)
?(xi?1?x)2a、b分别称为?、?的最小二乘估计。
(6-7)式中,SPxy称为x,y变量的离均差乘积和,简称乘积和(sum of products);SSx为自变量x的离均差平方和。关于SSx的计算我们早已熟悉,SPxy的计算常用(6-8)式。
SPxy??(xi?x)(yi?y)??xiyi?i?1i?1nn?x?yii?1i?1nnin (6-8)
因为Q是a、b的非负二次型,其极小值必存在,由(6-6)、(6-7)式求得的a、b就是函数Q(a,b)的极小值点(这里也是最小值点),从而可得回归方程(6-2)。
若将a?y?bx代入(6-2),则可得回归方程的另一形式为:
??y?b(x?x) (6-9) y?的值,通常其专业意义并不明显;b称为回这里a称为回归截距(regression intercept),它是x?0时y归系数(regression coefficient),是回归直线的斜率(slope)。b表示当x变化一个单位时,依变量y平均变化的数量。有时为了强调b是依变量y对自变量x的回归系数,将b表示为byx。
显然,由上述方法所确定的回归直线具有以下特性:
?i)?0; (1)离回归的和等于零,即?(yi?yi?1n 3
?i)2最小; (2)离回归平方和最小,即?(yi?yi?1n(3)回归直线通过散点图的几何重心(x,y)。
2.1.3 计算方法与实例
【例6-1】 设某食品感官评定时,测得食品甜度与蔗糖质量分数的关系如表6-2所示,试求y对x的直线回归方程。
表6-2 某食品甜度与蔗糖质量分数
蔗糖质量分数x(%) 甜 度 y
1.0 15.0
3.0 18.0
4.0 19.0
5.5 21.0
7.0 22.6
8.0 23.8
9.5 26.0
将表6-2中的数值在直角坐标中描出,可以看到7个点大致呈一条直线,如图6-2。
图6-2 食品甜度与蔗糖质量分数的关系
列表计算如表6-3所示:
表6-3 一元回归计算表
序号 1 2 3 4 5 6 7 ∑
x 1.0 3.0 4.0 5.5 7.0 8.0 9.5 38.0
x2 1.00 9.00 16.00 30.25 49.00 64.00 90.25 259.50
y 15.0 18.0 19.0 21.0 22.6 23.8 26.0 145.4
y2 225.00 324.00 361.00 441.00 510.76 566.44 676.00 3104.20
xy 15.0 54.0 76.0 115.5 158.2 190.4 247.0 856.1
这里n=7,故
x?11x??i7?38.0?5.4286 n11y??yi??145.4?20.7714
n7 4
SSx??x?2i(?xi)2n38.02=259.5-=53.2143
7SPxy??xiyi?从而有
b?SPxySSx??xi?yi38?145.7=856.1-=66.7857 n766.7857?1.2550
53.2143 a?y?bx?20.7714-1.2550×5.4286=13.9585 所求直线回归方程为
??13.9585?1.2550x y此外,由表6-3还可以求得依变量y的平方和
(?yi)2145.42SSy??yi??3104.20??84.0343
n7i?1n2它将在下面的显著性检验中用到。
2.2 直线回归的假设检验
??a?bx。问题是这个假设前面,我们在假定(xi,yi)满足线性模型(6-1)的条件下,求得了回归方程y是否正确?即变量y与x之间是否确有线性关系?如果他们之间没有线性关系,那么(6-1)中的β应为0,这相当于在模型(6-1)中,需要检验假设H0:β=0是否成立,可以采用F检验和t检验。
2.2.1 平方和与自由度的分解
2.2.1.1 平方和的分解
数据y1,?,yn之间的差异一般由两种原因引起,一是当y与x间确有线性关系时,由于x的取值x1,?,xn的不同而引起y的取值y1,?,yn的不同;另一方面,是由除去y与x间线性关系外的一切因素(包括x对y的非线性影响及其它一切未加控制的随机因素)引起的。
在理论上,有如下平方和分解定理: 若令
n?2SS?(y?y)?i?yi?1?n??i)2?SSr??(yi?yi?1?n??i?y)2?SSR??(yi?1?(总平方和)
(离回归平方和)
(回归平方和)
(6-10)
则有 SSy?SSr?SSR 且 SSR?bspxy
5