第6章直线回归与相关(5)

2019-04-16 21:44

因为t?10.279>t0.01(40)?2.704,所以结论与F检验一致。

3.3.3 查表法

为了简化相关检验的过程,将(6-62)式转化为下式

t2 (6-64) r??2t?n?2将一定自由度和一定显著水平的t临界值代入上式求得相应r?值,并列制成表(附表10),由样本计算的相关系数r与之比较,即可对无效假设进行检验。具体作法是:根据自由度n-2查附表10,得临界r值r0.05和r0.01。若|r|<r0.05,则P>0.05,相关系数r不显著;若r0.05≤|r|<r0.01,则0.01<P≤0.05,相关系数r显著,标记“*”;若|r|≥r0.01,则P≤0.01,相关系数r极显著,标记“**”。

对于【例6-3】,因为n-2=42-2=40,查附表10得r0.01=0.393,而r=-0.8517,即|r|>r0.01故P<0.01,表明该品种大豆籽粒内脂肪含量和蛋白质含量呈极显著的负相关关系。

可以看出,上述3种检验方法是完全等价的。同时不难理解,若对同一资料进行直线回归、相关分析,则对这两种线性关系的假设检验也是等价的。

3.4 总体相关系数的置信区间

欲求总体相关系数?的置信区间,必须知道r的抽样分布。当??0时,r近似服从正态分布;当??0时r的抽样分布具有很大的偏态,且随n和?的取值而异。此时,类似(6-62)式的转换已不再能由t分布

逼近。但是,若将r转化为z值

??z?ln???z??ln??则z近似于正态分布。

1?r1?r1?r1?r(r>0) (6-65)

(r<0)z总体具有平均数?z和标准差?z

???z?ln?????z??ln?1??1??1??1??1n?3(?>0) (6-66)

(?<0)?z?因此,由

(6-67)

21

u?z??z?z?N(0,1) (6-68)

可得?z的置信度为1??的置信区间为

z?u??z (6-69)

此区间的下限L1和上限L2分别为

?L1?z?u??z (6-70) ?L?z?u??z?2(6-65)式的反函数为

?e2z?1r?2z??e?1??2z?r?1-e?1?e?2z?(r>0) (6-71)

(r<0)实际上,(6-71)式中两者是等价的,由此可得?的置信度为1??的置信区间的下限L1和上限L2分别为

?e2L1L???1?e2L1?2L2?L?e2??e2L2?对于【例6-3】,将r?0.8517作z转换得

?1?1 (6-72) ?1?1z??ln其标准差为

1?r1?r??ln1?0.8517??1.262311

1?0.8517?z?1n?3?142?3?0.025641

?z的95%的置信区间下限和上限分别为

L1?z?u??z??1.262311?1.96?0.025641??1.312567L2?z?u??z??1.262311?1.96?0.025641??1.212055于是?的置信度为95%的置信区间的下限L1?和上限L2?分别为

L1?L2?

e?2?1.312567?1??2?1.312567??0.8649e?1

e?2?1.212055?1??2?1.212055??0.8373e?122

因而总体相关系数?置信度为95%的置信区间为[-0.8649,-0.8373]。

4 应用直线回归与相关的注意事项

以上我们对直线回归、相关分析作了较详细的介绍。本节将提出几点在使用这些方法时值得注意的事项。

(1)变量间的相关和回归分析要有学科专业知识作指导。回归和相关分析是揭示变量间统计关系的一种数学方法,在将这些方法应用于食品科学研究时必须考虑研究对象本身的客观情况。被研究变量间是否存在回归、相关关系以及在什么条件下会有这种关系,完全是由被究对象本身决定的。如果不以一定的客观事实、科学依据为前提,把风马牛不相及的资料随意凑到一块作回归、相关分析,那将是根本性的错误。例如,如果我们去研究大豆脂肪含量与小麦蛋白质含量的关系,虽然也可计算一个相关系数,甚至经过检验可能会得到相关关系显著的结论,但它是毫无意义的,结论也是荒谬的。

(2)要严格控制研究对象(x 和y)以外的有关因素。在直线回归、相关分析中必须严格控制被研究的两个变量以外的各个相关变量的变动范围,使之尽可能稳定一致。否则,回归、相关分析很可能导致完全虚假的结果。因为在实际中,各种因素有着复杂的相互关联和相互制约的关系,一个因素的变化往往受到许多因素的影响。例如,某种食品质量的好坏要受到原料、配方、工艺、技术、生产、贮藏的环境条件等诸多因素的影响。在这种情况下,仅选择两个变量进行回归、相关分析,若其余变量都在变动,则不可能揭示这两个变量的真实的关系。

(3)要正确判断直线相关、回归分析的结果。一个不显著的直线相关系数或回归系数并不一定意味着x和y没有关系。可能有三种情况:①真的没有关系;②有一定线性关系,由于样本小、误差大而未检验出;③可能是非线性关系。属于何种情况,应综合其它信息做出判断。一个显著的线性相关系数或回归系数亦并不意味着x和y的关系必为线性,因为它并不排斥有能够更好地描述x和y关系的非线性方程的存在。

(4)一个显著的相关或回归并不一定具有实践上的预测意义。这也就是说,不要将相关或回归关系的显著性与相关或回归关系的强弱混为一谈。如一个x、y两个变量间的相关系数r=0.25,在df=60时达到显著,而r2=0.0625,表明x变量或y变量的总变异能够通过y变量或x变量以线性关系影响的比重只占6.25%,未能被线性关系说明的部分高达93.75%。显然,由其中一个变量预测另一个并不可靠。在显著的基础上,相关系数绝对值的大小反映相关关系的强弱,决定系数的大小反映回归关系的强弱。有人主张,

r2>0.7时,一个显著的回归方程才有实践上的预测或控制的意义。

(5)实际应用中要考虑到回归方程、相关系数的适用范围和条件。由某个样本估计的两个变量间的线性回归或相关关系可能仅在样本的取值范围和该样本所由来自的背景条件下有效,不能将这种关系随意外延。因为当取值范围或背景条件改变时,变量间的关系可能就发生了变化,可能变成了非线性关系,故实际应用中要考虑到回归方程、相关系数的适用范围和条件。

(6)两个变量的样本含量n(观测值对数)要尽可能大些,以提高回归和相关分析的准确性。样本含量n至少应大于5,同时自变量的取值范围应尽可能宽些。这样,既可以降低回归方程的误差也有助于发现变量间可能存在的曲线关系。

(7)利用回归方程进行预测时,回归方程不可逆转使用。当x和y都是随机变量时,往往可以把其中任意一个取为自变量。这时就存在两种回归模型,若都为直线的,则分别有

y??0??x?? 和x??0????y???

23

应当注意的是,这两个直线模型并不—致。意思是,若由第一个模型解得x???0??y????,则这个模型不一定就是第二个模型。因此,由试验数据建立的回归方程通常是不等价的,即设有数据(x1,y1),?,

??a?bx与把y作为自变量求出的回归方(xn,yn),把x作为自变量求出回归方程(用最小二乘法,下同)y??a??b?y一般是不能逆转的。 程x5 能直线化的曲线回归

5.1 曲线回归分析概述

在许多问题中,两个变量之间并不一定是线性关系,而是某种非线性关系。如,在进行米氏方程和米

氏常数推算时,测得酶的比活力与底物质量浓度之间的关系,得到以下9对数据(表6-6):

表 6-7 底物浓度与酶比活力

底物浓度(x)/(mmol/L)

酶 比 活 力(y)

1.25 17.65

1.43 22.00

1.66 26.32

2.00 35.00

2.50 45.00

3.30 52.00

5.00 55.73

8.00 59.00

10.00 60.00

将表6-6样本点(xi,yi),i=1,2,?,9,标在图6-3中,可以看出这些点的分布呈曲线形状,且随着x的增加,开始时y迅速增加,以后逐渐趋于稳定。根据这个特点,并参考常见的函数图形(图6-4至图6-9),可选择双曲线来描述y与x之间的关系。即,

1/y=a+b(1/x)

由上可知,曲线回归分析(curvilinear regression analysis)的基本任务是通过两个相关变量x与y的实际观测数据建立曲线回归方程(curvilinear regression equation),以揭示x与y间的曲线联系形式。其困难和首要的工作是确定y与x间曲线关系

类型。通常可通过两个途径来确定:一是利用专业知识,根据已知的理论规律和实践经验确定。例如,在细菌培养中,根据专业知识知道,在一定条件下细菌总数y与时间x有指数函数关系,即y?N0e?x,N0为细菌的初始数量,?为相对增长率。二是在没有已知的理论规律和经验可资利用时,可用描点法将实测点在直角坐标纸上描出,观察实测点的分布趋势与哪一类已知的函数曲线最接近,则选用该函数关系式来拟合其曲线关系(找不到合适的曲线时,可用多项式逼近)。在这些函数关系中有些是可以利用变量转换而将其直线化的。如上例,令y'?1/y,x'?1/x,则有y??a?bx?,可建立其直线回归方程。

可见,对于可直线化的曲线函数类型,曲线回归分析的基本过程是:先将x或y进行变量转换,然后对新变量进行直线回归分析;建立直线回归方程并进行显著性检验和区间估计;最后将新变量还原为旧变量,由新变量的直线回归方程和置信区间得出原变量的曲线回归方程和置信区间。

还有一种情况是找不到一种已知的函数曲线较接近实测点的分布趋势,这时可利用多项式回归,通过逐渐增加多项式的项数或次数来拟合,直到满意为止。

5.2 能直线化的曲线类型

下面介绍几种常用的能直线化的曲线函数类型及其图形,并将其直线化,供进行曲线回归分析选用。

24

(1)双曲线函数(hyperbolic function)

1y?a?bx (x、y>0)(图6-4)

若令 y'?1y x'?1x 则有 y??a?b?x

图 6-4 双曲线函数图形(1y?a?bx)

(2)幂函数(power function)

(图6-5) y?dxb (d>0,x>0)

若令 y??lny,x??lnx,a?lnd 则有 y??a?b?x(d?ea)

图 6-5幂函数图形(y?dxb)

(3)指数函数(exponential function) ① y?debx (图6-6)

若令 y??lny,a?lnd 则有 y??a?b x

25


第6章直线回归与相关(5).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:鼎信诺审计软件常见问题汇总 - 图文

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: