故?的置信度为1??的置信区间是
b?t?Sb≤?≤b?t?Sb (6-28)
式中t?是t分布(df?n?2)的两尾概率为?时的临界值。于是?的置信度为1??的置信区间的下限和上限分别为
L1?b?t?Sb,L2?b?t?Sb
对于【例6-1】,取置信度1???0.95(??0.05),t0.05(5)?2.571, b?1.2550,Sb?0.0286分别为
L1?1.2550?2.571?0.0286?1.1815L2?1.2550?2.571?0.0286?1.3285置
2.5 两条回归直线的比较【注】
在实际研究工作中,有时需要对两条回归直线进行比较。两条回归直线的比较,主要包括二个内容:一是回归系数的比较,判断这两条回归直线是否平行;二是回归截距的比较,判断这两条回归直线与y轴交点是否相同。若经比较,两个回归系数及回归截距差异均不显著,则可以认为这两条回归直线平行,且与y轴交点相同,可将这两条回归直线合并为一条回归直线。
假设分别有y关于x的两个一元线性回归模型:
?y(1)??0(1)??(1)x??(1) (6-29) ?(2)(2)(2)(2)?y??0??x??其中,?(1)2~N(0,?12),?(2)~N(0,?2)。
分别获得了x与y的n1、n2对观测值:
?x1(1)?(1)?y1?(1)x2(1)y2(1)??xn1?, (1)??yn1??x1(2)?(2)?y1?(2)(2)?x2?xn2? (2)(2)?y2?yn2?由观测值可以建立两个直线回归方程:
?(1)?a1?b1xy?y(2)?a2?b2x
(1)(2)(1)(2)并已求得两个直线回归方程各自的:x1,y1;x2,y2;SSx ,SSr; SSx ,SSr。
两个直线回归方程各自的离回归均方为MSr(1)?SSr(1)/(n1?2)、MSr(2)?SSr(2)/(n2?2),分别为
?12与?22的估计值。如果两个直线回归方程都显著或极显著的,下一步便可以考虑两者的比较问题。
两条回归直线比较的具体步骤如下:
(1)检验MSr(1)与MSr(2)是否有显著差异,用F检验(两尾检验)。 F检验的无效假设与备择假设为:
H0:?1??2 HA:?12??22
11
22F检验的计算公式为:
MSr(1)F?,(2)MSrdf1?n1?2,df2?n2?2 (这里假定MSr(1)>MSr(2)) (6-30)
2
2若未否定H0,表明两个离回归均方MSr(1),MSr(2)差异不显著,可以认为?1与?2相同,此时将两个离回归均方MSr(1),MSr(2)合并为共同的离回归均方MSr:
(n1?2)MSr(1)?(n2?2)MSr(2) (6-31) MSr?n1?n2?4共同的离回归标准误Syx为:
Syx?2
2(n1?2)MSr(1)?(n2?2)MSr(2)?n1?n2?4SSr(1)?SSr(2) (6-32)
n1?n2?422注意,?1与?2相同是进行两条回归直线的比较的前提条件,若经F检验否定了H0:?1??2,即两个离回归均方MSr(1)和MSr(2)差异显著,则不能进行两条回归直线的比较。
(2)检验b1与b2是否有显著差异,用t检验。 无效假设与备择假设为:
H0:?(1)??(2) HA:?(1)??(2)
计算公式为:
t?Syxb1?b211?(1)(2)SSxSSx,df?n1?n2?4 (6-33)
(6-33)式中的Syx为共同的离回归标准误;分母简记为Sb1?b2,叫做回归系数差数标准误。
若未否定H0,表明两个回归系数b1、b2差异不显著,可以认为?(1)与?(2)相同,此时将两个回归系数b1、b2合并为共同的回归系数b:
(1)(2)b1SSx?b2SSx (6-34) b?(1)(2)SSx?SSx(3)检验a1与a2是否有显著差异,用t检验。 无效假设与备择假设为:
(1)(2)(1) HA:?0H0:?0??0??0(2)
计算公式为:
t?Syxa1?a2x11??n1n2SS21(1)x?x2(2)SSx2,df?n1?n2?4 (6-35)
(6-35)式中的Syx仍为共同的离回归标准误;分母简记为Sa1?a2,叫做回归截距差数标准误。
若未否定H0,表明两个回归截距a1、a2差异不显著,可以认为?0与?0截距a1、a2合并为共同的回归截距a:
(1)(2)相同,此时将两个回归
a?y?bx (6-36)
其中,
12
x?n1x1?n2x2ny?n2y2, y?11 (6-37)
n1?n2n1?n2【例6-2】 某试验研究变量x和y的关系,观测了两组试验数据,分别进行了直线回归分析,有关统计数如表6-5所示。对这两条回归直线进行比较。若两个回归系数b1、b2和两个回归截距a1、a2差异均不显著,建立共同的回归方程。
表6-5 直线回归分析有关统计数
回归系数(b) 回归截距(a) 样本容量(n) 离回归均方(MSr) 离回归自由度(d f) 自变量平方和(SSx) 自变量平均数(x) 依变量平均数(
甲 试 验 1.140 -38.150 8 0.140 6 257.875 98.375 74.000
乙 试 验 1.074 -31.150 7 0.111 5 162.000 87.000 62.286
y)
(1) 检验MSr(1)与MSr(2)是否有显著差异 由(6-30)式,求得F?0.1400.111?1.261。查两尾检验F值表(附表9),F0.05(6,5)?6.98,由于F=1.261<6.98,表明两个离回归均方MSr(1),MSr(2)差异不显著,按(6-32)式将两个离回归均方MSr(1),MSr(2)合并为共同的离回归均方MSr:
MSr?共同的离回归标准误Syx?(8?2?)0.1?40?(7?2)0.111?0.12 78?7?4MSr?0.127?0.356。
1.140?1.0740.356?11?257.875162.000(2)检验b1与b2是否有显著差异 由(6-33)式,计算得
t??1.849
由d f =11查t值表,得t0.05(11)?2.201,由于t=1.849<2.201,表明两个回归系数b1与b2差异不显著,利用(6-34)式求共同回归系数b:
b?1.140?257.875?1.074?162.000?1.115
257.875?162.000(3)检验a1与a2是否有显著差异 由(6-35)式,求得
t?(?38.150)?(?31.150)1198.375287.00020.356????87257.875162.000??2.139
由df?11查t值表,得t0.05(11)?2.201,由于t?2.139?2.201,表明两个回归截距a1与a2差异不显著,利用(6-36)、(6-37)式求共同回归截距a:
13
a?8?74.0?7?62.2868?98.375?7?87.0?1.115???35.236
8?78?7???35.236?1.115x。 于是得到共同的回归方程 y【注】 本小节内容辑至:明道绪主编?高级生物统计?北京:中国农业出版社,2006。
2.6 直线回归方程的应用
回归分析的目的在于,一是研究揭示依变量与自变量间内在的联系规律,二是将所建立的回归方程应用于实际问题的解决。直线回归方程的应用主要体现在以下几个方面。
2.6.1利用回归方程进行估计和预测
在这里,估计(estimation)是指在给定了自变量x的一个特定值后,对所对应的依变量y总体的均值(变y量的期望)进行估计;而预测(prediction)则是指在给定了自变量x的一个特定值后,对依变量y的一个可能取值进行估计(预测)。换言之,对给定自变量x的一个特定值条件下依变量y总体均值的估计称为估计,而对该y变量总体中一个随机个体的可能取值的估计称为预测。实际上在直线回归分析中,估计和预测的公式是相同的,都是所建立的直线回归方程(6-2)式或(6-9)式,区别在于两者的方差及置信区间不同。
2.6.1.1 利用回归方程进行估计
在给定了自变量x的一个特定值x0后,所对应的依变量y总体的均值(期望)是?0??x0,其点估计是y?0?a?bx0亦即 y?0?y?b(x0?x)。
估计量y?0的方差是
?1(x0?x)2??????? (6-38)
SSx??n2?y2(6-38)式说明,对于不同的x值y?的方差是不同的,x的值距x越近,方差越小;反之,越大。当总体方差?2未知时,用离回归均方代替。此时可构造统计量
t??0?(?0??x0)y?1(x?x)?MSr??0?nSSx??2?t(n?2) (6-39)
将(6-39)式的分母记为Sy?,即
?1(x0?x)2?1(x0?x)2SyMSr??? (6-40) ??Syx??SSx?nSSx?n根据(6-39)式,可得?0??x0的置信度为1??的置信区间为
14
?0?t?(n?2)Syy? (6-41)
对于【例6-1】,当蔗糖质量分数为x0?3.5%时,该食品甜度y的期望值的估计值及其置信度为95%的置信区间为
?0?a?bx0?13.9585?1.2550?3.5?18.351 y2?0?t?(n?2)Syy??18.351?2.5710.0436??17?(3.5?5.4286)53.2143??
?18.351?0.248?(18.103,18.599)2.6.1.2 利用回归方程进行预测
由(6-1)式容易理解,在给定了自变量x的一个特定值x0后,所对应的依变量y总体中某一随机个
?0i?a?bx0??i(其真值为y0i,亦称为x?x0条件下y的单个值)体i的预测值为y。由于?i的期望为0,?0i?a?bx0?y?0。因而y的预测值的估计公式与?0??x的估计公式故可用0作为?i的估计值,于是有y??a?bx或y??y?b(x?x)。但是y?0i的方差为 是相同的,都是y?0i)?D(a?bx0??i)?D?y?b(x0?x)??i?D(y2?1(x0?x)2? ???1??? (6-42)
SSx??n如果用离回归均方MSr代替?2,则统计量
??2(x0?x)2?2??????2?
SSx?n?t??0i?y0iy?1(x?x)?MSr?1??0?SSx??n?t(n?2) (6-43)
将(6-43)式的分母记为Sy,即
?1(x0?x)2?1(x0?x)2Sy?MSr?1?? (6-44) ??Syx1??nSSnSSxx??
根据(6-43)式,可得随机个体值y0i的置信度为1??的预测区间为
?0i?t?(n?2)Sy (6-45) y仍用【例6-1】的数据,当蔗糖质量分数为x0?3.5%时,该食品甜度y的单个测定值y0i的置信度为95%的预测区间为
15