第6章直线回归与相关(4)

2019-04-16 21:44

?1(3.5?5.4286)2??i?t?(n?2)Sy?18.351?2.5710.0436?1??y? 53.2143?7??18.351?0.591?(17.760,18.942)这个置信区间显然比?0??x0的置信区间大。

当n很大时，自由度为n－2的t分布近似于N(0，1)分布，即有t?(n?2)?u?(u?可由附表2查得)。从而由(6-45)可知，y的单个值y0i的置信度为1??的预测区间近似地为

?0i?u?Sy) （6-46） (y

2.6.2 利用回归方程进行控制

控制是预测的反问题。如在实际应用中会有这样的问题：

质量标准要求食品的某项质量指标y在一定范围内取值，否则产品被视为不合格。若标准要求：y∈［y1，y2］, y1、y2为已知量，那么对y有重要影响的变量x的取值应控制在一个怎样的范围内，才能有较大把握保证生产出的产品符合标准呢？

这种由依变量y的取值范围反推自变量x的取值范围的问题，在统计学中常被称为控制问题。若给定置信度1??，区间［x1，x2］中的任一点x0,其相应的随机变量y0的置信度为1??的预测区间均被包含在［y1，y2］内，则称［x1，x2］为对应区间［y1，y2］上控制水平为1??自变量x的控制区间。即

P(y1≤y≤y2|x1≤x≤x2)≥(1??) （6-47）

理论上，确定控制区间，一般涉及求解复杂的代数方程，计算多为不便，故在实际应用中常采用下面的近似求法。

设y0是y的一个观测值，根据y对x回归方程可以算出x0的点估计

?0?x?x则1??置信度的控制区间的近似计算公式为

y0?y （6-48） b?0?t?(n?2)x其中，Sy由（6-44）式算得,即

Syb （6-49）

?1(x0?x)2??0?x)21(xSy?MSr?1?? ??Syx1??nSSnSSxx??当n很大时t?(n?2)可由u?代之。于是有

?0?u?xSyb （6-50）

在生产过程的质量控制中，可以认为n很大，甚至是无穷大，故可用（6-50）式估计区间［x1，x2］。应当注意的是，由（6-49）式或（6-50）式估计的区间［x1，x2］不一定是应最后确定的区间。

?0?3.5；当??0.05时，例如，就【例6-1】而言，当测得y0=18.351时，由（6-48）式得x0的点估计x??13.9585?1.2550x得由（6-50）式得［x1，x2］=［3.14，3.86］；将x1=3.14和x2=3.86分别代入回归方程yy1=17.90，y2=18.80，与之相应的95%置信度的预测区间分别是［17.44，18.36］和［18.35，19.25］。显然，若要求该食品的甜度（y）以95%置信度控制在区间［17.44，19.25］内，则应将其蔗糖质量分数（x）控制在［x1，x2］=［3.14，3.86］区间内。若要求该食品的甜度（y）以95%置信度控制在区间［18.00，19.00］内，则其蔗糖质量分数（x）所应控制的区间［x1，x2］要小于［3.14，3.86］，经试算应控制在区间［3.58，3.66］之内。

?0偏离x越远，控自变量控制区间的宽度与多项因素有关。置信水平越高，回归方程的偏离度越大，x制区间就越宽；反之，就越窄。自变量控制区间还随b、样本含量n的增大及依变量y的输出被控区间［y1，y2］的变窄而变窄。此外，由（6-49）式和6-50）式可知，Syb可近似反映由 y反推x时的反推误差的大小。

2.6.3 校正系数的制定

回归方程不仅用于估计、预测和控制，还常常用于制定校正系数。

例如，欲比较不同蔬果呼吸强度（CO2mg/(kg·h)），要以相同环境温度下测定为前提，但在实践中，如果在一般室温条件下，测定呼吸强度时的环境温度往往是有差异的。我们可以有多种方法解决这个问题，方法之一就是将在不同环境温度下测得的呼吸强度校正为某标准环境温度下的呼吸强度。校正的方法是计算出不同环境温度时的呼吸强度的校正系数，然后再将不同环境温度时的呼吸强度校正为标准环境温度时的呼吸强度。具体作法是先建立一个呼吸强度（y）对测试环境温度（x）的回归方程：

??a?bx y利用这个方程可计算出个环境温度时呼吸强度的校正系数。

?s 标准环境温度呼吸强度估计值y某环境温度呼吸强度校正系数= （6-51）

?i 某环境温度呼吸强度估计值y

某环境温度校正呼吸强度=该环境温度实际呼吸强度×该环境温度呼吸强度校正系数（6-52）

应为在一定环境温度范围内蔬果的呼吸强度随温度的升高而加强，故回归系数b为正值。我们也可用以下方法校正：

y??y?b(x?xs) （6-53）

式中x为某实际温度；xs为所规定的标准环境温度；y为实际温度x下的实际呼吸强度；y?为校正为xs时的呼吸强度。很明显，如果低于xs 测试，括号内为负值，则y要加一个正值，即y?＞y；如果高于xs测试，括号内为正值，则y要减一个正值，于是y?＜y。

3 直线相关

进行直线相关分析的基本任务在于根据x, y 的实际观测数据，计算出表示x, y两个变量间线性相关的

程度和性质的统计量——相关系数，并进行显著性检验。

3.1 相关系数

现在我们研究如何用一个数量性指标来描述两个变量线性关系的密切程度和性质。

假设观测值为xi和yi(（i＝l，2，?，n）的一个样本，其散点图如图6-1所示。过点（x,y）作两轴的垂线，把散点图分成四个象限。对于坐标为(xi，yi)的任一点p，它与(x，y)的离差为：xi?x，yi?y，由图6-1可以看出：

对第Ⅰ象限中所有的点对第Ⅱ象限中所有的点对第Ⅲ象限中所有的点对第Ⅳ象限中所有的点

(xi?x)(yi?y)＞0

(xi?x)(yi?y)＜0 (xi?x)(yi?y)＞0

(xi?x)(yi?y)＜0

因此，可以用乘积和?(xi?x)(yi?y)（SPxy）来对xi和yi之间的关系进行一种度量。如果这种关系是正的（x、y偕同消长），大多数的点就落在Ⅰ、Ⅲ象限中，SPxy的值应为正值；如果这种关系是负的（x、y此消彼长），那么大多数的点就将落在Ⅱ、Ⅳ象限中，SPxy的值应为负的。x、y之间这种偕同消长或此消彼长的关系称为线性相关关系。SPxy的绝对值越大，则正或负的线性关系就越强。如果在x和y之间不存在线性相关关系，那么这些点就将在四个象限中均匀分布或围绕某种曲线分布，SPxy的值应接近0。以上特点告诉我们SPxy数值的大小和样本点的多少有关，为了消除这一影响可用自由度n?1去除SPxy，这一样本统计量称为样本协方差（covariance）,用COV(x,y)表示，即

COV(x,y)??(xi?x)(yi?y)n?1?SPxyn?1 （6-54）

应当注意协方差与方差的相似之处，方差可以看作是一个变量与它自身之间的协方差。

用协方差来度量两个变量之间的线性相关关系仍是存在缺陷的，即它的数值要受到x和y的度量尺度及变异程度的影响，同时它又是有单位的，而作为一个度量相关关系的量是不应有单位的。因此，可将协方差标准化，即再除以两个变量的标准差，这个标准化的协方差就是样本相关系数(correlation coefficient)，用r表示。

r??(x?(xii?x)(yi?y)(n?1)?x)2(n?1)??(yi?y)2(n?1)?COV(x,y) （6-55）

SxSy将分子和分母的自由度约去，上式可改写为

r??(xi?x)(yi?y)2?(xi?x)?(yi?y)2?SPxySSxSSy (6-56)

与回归系数一样，相关系数的正、负也是决定于乘积和SPxy。需要指出的是相应于样本相关系数也有一个总体相关系数。其定义是：

???xy （6-57） ?x?y式中的分子是变量x和y的总体协方差，样本相关系数是总体相关系数的一个估计量。

在直线回归分析中我们提到了决定系数的概念（见（6-26）式），显然相关系数的平方就是决定系数。决定系数值域是0≤r≤1，而相关系数的值域是?1≤r≤1，只有x和y呈完全的直线回归或相关关系时它们的值或绝对值才是1，通常是绝对值小于1的数值。相关系数r绝对值的大小表明了两变量相关的程度，其正、负则表明了相关的性质。

对于x、y两个变量的一组n对数据，如果同时计算byx和bxy，那么相关系数r与这两个不同方向的回

归系数有如下关系：

r?SPxySSxSSy?SPxySSx?SPxySSy?byxbxy （6-58）

这说明相关系数刻画的是两变量平行的双向关系。

3.2 相关系数的计算

相关系数的计算主要在于SPxy、SSx和SSy的计算，而三者的计算公式我们早已熟悉。于是相关系数的计算公式为

r?SPxySSxSSy??xy??x??yn???x?(?x)n?????y?(?y)222 （6-59）

2n??下面通过一个实例来说明样本相关系数的计算。

【例6-3】测定某品种大豆籽粒内的脂肪含量(%)和蛋白质含量(%)的关系，样本含量n=42,结果列于表6-6，试计算脂肪含量蛋与白质含量的样本相关系数。

表6-6 某品种大豆籽粒的脂肪(x)和蛋白质(y)含量(%)

x 15.4 17.5 18.9 20.0 21.0 22.8 15.8 17.8 19.1 20.4 21.5 22.9 15.9 17.9 y 44.0 38.2 41.8 38.9 38.4 38.1 44.6 40.7 39.8 40.0 37.8 34.7 42.6 39.8 x 19.4 20.4 21.6 22.9 16.1 18.1 19.6 20.4 21.8 23.4 16.8 18.4 19.7 20.7 y 42.0 37.4 35.9 36.0 42.1 40.0 40.2 39.1 39.4 33.2 43.1 40.9 38.9 35.8 x 21.9 23.8 17.0 18.6 19.7 20.7 22.0 24.2 17.4 18.9 20.8 22.3 24.6 19.9 y 37.2 36.6 42.8 42.1 37.9 36.2 36.7 37.6 42.2 39.9 37.1 38.6 34.8 39.8 计算如下基本统计量：

?x?838.0 ?x2 0 SSx??x2?(?x)2n?237.8048 ?16957. 92?y?1642.9 ?y?xy?32555.07SPxy ?64557. 43SSy??y2?(?y)2n?292.6583

??xy?(?x?y)n??224.6967

r?SPxySSx?SSy??224.6967??0.8517

237.8048?292.65833.3 相关系数的假设检验

根据实际观测值计算得来的相关系数r是样本相关系数，它是双变量正态总体中的总体相关系数?的估计值。样本相关系数是否来自?≠0的总体，还须对样本相关系数r进行显著性检验。此时无效假设、备择假设为H0：?=0，HA：?≠0。对此假设可用3种方法进行检验。

3.3.1 F检验

在直线相关分析中，可将y变量的平方和剖分为

SSy?式中，r2?(22y?y)?2r?(y?)y?(1?2r)?22(6-60) (y? y)?(y?y)2为相关平方和，(1?r2)?(y?y)为非相关平方和，其自由度n?1也可相应剖分，

r2 (6-61) F??22(1?r)?(y?y)2(n?2)(1?r)/(n?2)r2?(y?y)21相关平方和的自由度为1，非相关平方和的自由度为n?2。所以

在无效假设成立时，这个F统计量服从期望值等于1、df1?1、df2?n?2的F分布，这个F检验也是单侧检验。

对于【例6-3】,r??0.8571,n?42,代入（6-61）式，有

r2(?0.8517)2F???105.663?? 22(1?r)(n?2)［1-(-0.8517)］(42-2)因为F?105.663＞F0.01(1,40)?7.31,所以否定无效假设，即该品种大豆籽粒内的脂肪含量和蛋白质含量之间存在极显著的负相关。

3.3.2 t检验

在无效假设成立时

t?r （6-62） Sr服从自由度为df?(n?2)的t分布，故可由之检验H0：?=0。式中

1?r2Sr? （6-63）

n?2是相关系数r的标准误。显然，t与F有关系t2?F。

对于【例6-3】

t??0.8517［1-(-0.8517)2］(42-2)20

??10.279??

共6页:

第6章直线回归与相关(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档