由r=0.881,n=11,v=11-2=9
查r界值表,得r0.005/2,9=0.776,因r>r0.005/2,9,故P<0.005, 按??0.05水准,拒绝H0,接受H1,可以认为大白鼠的进食量与体重增加量之间存在正相关关系。
我们根据上表得数据绘制散点图,见下图,可以看出大白鼠的进食量与增重量有明显的直线趋势,我们考虑建立二者之间的线性回归方程。 由上述计算
lXX?75943.636,lXY?16364.364,lYY?4543.636,X?774.182,Y?151.818 代入公式(10-5)和(10-6)得:
b?lXY16364.364??0.215lXX75943.636
a?Y?bX?151.818?0.215?774.182??15.003 ?则回归方程为: Y??15.003?0.215X
图 大白鼠的进食量与增重量之间关系散点图
最后我们采用方差分析法对回归方程作检验: (1) 建立假设检验:
H0:??0;H1:??0,??0.05, (2) 由计算可得:
SS总????Y?Y?n2?4543.636,SS回归lXY?3526.199lXX
2SS剩余?SS总?SS回归?1017.437F?MS回归MS剩余?SS回归?回归SS剩余?剩余
?31.192
?回归?1,?剩余?11?2?9(3) 查界值表,得统计结论
36
查F界值表,
F0.01?1,F?F0.01?1,9??10.569?, , P<0.01,拒绝H0, 接受H1,说明大白鼠
的进食量与体重增加量之间存在线性回归关系,也就是说,可以用大白鼠的进食量
来估计其体重的增加量。
3. 测得347名13岁健康男童的身高和体重,身高均数为146.4cm,标准差为
8.61cm,体重均数为37.04kg,标准差为6.67kg。身高和体重的相关系数r=0.74,试计算由身高推体重的回归系数及由体重推身高的回归系数。 [参考答案]
身高为X,体重为Y。
;Y?37.04,SY?6.67,r?0.74 由题意,X?146.4,SX?8.61由身高推体重的回归系数为b1,则
lXYrlXX.lYYrS0.74?6.67b1???Y??0.573lXXlXXSX8.61 由体重推身高的回归系数为b2,则
b2?lXYrlXXlYYrS0.74?8.61?X?0.955lYYlYYSY6.67
4. 某防治所作病因研究,对一些地区水质的平均碘含量(μg/l)与地方性甲状腺肿患病率进行了调查,结果如下表,试问甲状腺肿患病率与水质中碘的含量有无相关关系?
局部地区水质的平均碘含量(μg/l)与地方性甲状腺肿患病率 地区编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 患病率(%) 40.5 37.7 39.0 20.0 22.5 37.4 31.5 15.6 21.0 6.3 7.1 9.0 4.0 5.4 碘含量(μg/l) 1.0 2.0 2.5 3.5 3.5 4.0 4.4 4.5 4.6 7.7 8.0 8.0 8.3 8.5
[参考答案]
甲状腺肿患病率为Y,水质中碘含量为X。
① 将X,Y分别从小到大编秩,见下表(3)、(5)两栏; ② 计算差数d,见(6)栏;
2d2?870?d③ 计算,见(7)栏,;
④代入公式(10-18)计算rs
rs?1?6?870??0.912214?14?1?
下面对rs进行检验 (1)建立假设检验
H0:?s?0;H1:?s?0,??0.05 (2) 计算统计量 rs=-0.912 (3) 结论
当n?50时,查附表12中的等级相关系数rs界值表。
37
ss0.05/2,14由于s0.05/2,14,拒绝H0,接受H1,可认为甲状腺肿
患病率与水质中碘的含量存在负相关关系。
r?0.538,r?r,P?0.05 不同地区水质中碘含量(
地区编号 (1)
μg/L)与甲状腺肿患病率(%)
甲状腺肿患病率 Y (4) 40.5 37.7 39.0 20.0 22.5 37.4 31.5 15.6 21.0 6.3 7.1 9.0 4.0 5.4
秩次 (5) 14 12 13 7 9 11 10 6 8 3 4 5 1 2
d (6)
d2 (7) 169 100 100 6.25 20.25 25 9 4 1 49 56.25 42.25 144 144
水质中碘含量 X (2) 1.0 2.0 2.5 3.5 3.5 4.0 4.4 4.5 4.6 7.7 8.0 8.0 8.3 8.5
秩次 (3) 1 2 3 4.5 4.5 6 7 8 9 10 11.5 11.5 13 14
1 -13 2 -10 3 -10 4 -2.5 5 -4.5 6 -5 7 -3 8 2 9 1 10 7 11 7.5 12 6.5 13 12 14 12
(闫岩)
第十一章 多元线性回归与多元逐步回归 练 习 题
一、单项选择题
1. 在疾病发生危险因素的研究中,采用多变量回归分析的主要目的是 A.节省样本 B.提高分析效率
C.克服共线影响 D.减少异常值的影响 E.减少混杂的影响
2. 多元线性回归分析中,反映回归平方和在应变量Y的总离均差平方和中所占比重的统计量是
A. 简单相关系数 B .复相关系数 C. 偏回归系数 D. 回归均方 E. 决定系数R
3. 对同一资料作多变量线性回归分析,若对两个具有不同个数自变量的回归方程进行比较,应选用的指标是
A.决定系数 B. 相关系数 C. 偏回归平方和 D. 校正决定系数 E. 复相关系数
4. 多元线性回归分析,对回归方程作方差分析,检验统计量F值反映的是 A.所有自变量与应变量间是否存在线性回归关系 B.部分自变量与应变量间是否存在线性回归关系
38
2C.自变量与应变量间存在的线性回归关系是否较强 D.自变量之间是否存在共线 E. 回归方程的拟合优度
5. 在多元回归分析中,若对某个自变量的值都乘以一个常数c(c?0),则 A. 偏回归系数不变、标准回归系数改变 B. 偏回归系数改变、标准回归系数不变 C.偏回归系数与标准回归系数均不改变 D.偏回归系数与标准回归系数均改变 E.偏回归系数和决定系数均改变 答案:E E D A B 二、计算与分析
1.某种特殊营养缺乏状态下,儿童年龄(岁)、身高(cm)与体重(kg)测定结果见下表,?试建立年龄、身高与体重的二元回归方程;?对回归方程作检验;?计算复相关系数与决定系数;? 计算年龄和身高的标准偏回归系数。 营养缺乏儿童年龄、身高、体重测定值 编号i 1 2 3 4 5 6 7 8 9 10 11 12 身高X1 145 150 124 157 129 127 140 122 107 107 155 148 年龄X2 8 10 6 11 8 7 10 9 10 6 12 9 体重Y 29 32 24 30 25 26 35 26 25 23 35 31
[参考答案] (1) 参数估计
模型 变量 偏回归系数 标准误 标准化偏回归系数 t P 1 常数 2.114 5.048 0.419 0.685
X1 0.135 0.047 0.564 2.863 0.019
X2
0.923 0.434 0.419 2.126 0.062
?回归方程为:Y?2.114+ 0.135X1+0.923X2
(2)
方差分析 变异来源 离均差平方和 自由度 均方差 F P 回归 150.884 2 75.442 16.154 0.001 误差 42.033 9 4.670 总变异 192.917 11
从上表可见,F = 16.154, P < 0.001, 此回归方程有统计学意义。
(3)复相关系数R =0.884,决定系数R2 =0.782。?年龄和身高的标准偏回归系数第一个表。
2.有学者认为,血清中低密度脂蛋白增高和高密度脂蛋白降低,是引起动脉硬化的一个重要原因。现测量了30名动脉硬化疑似患者的载脂蛋白AI、载脂蛋白B、载脂蛋白E、载脂蛋白C、低密度脂蛋白中的胆固醇、高密度脂蛋白中的胆固醇
39
含量,资料如下表。
①分别作Y1和Y2对X1,X2,X3,X4的多元线性回归分析。
②作Y2/Y1对X1,X2,X3,X4的逐步回归分析,并与前面的分析结果进行比较。
30名动脉硬化疑似患者的观测资料
载脂蛋白载脂蛋白
序号 载脂蛋白AI
B E
(mg/dL)
(mg/dL) (mg/dL)
i X1
X2 X3
1 173 106 7 2 139 132 6.4 3 198 112 6.9 4 118 138 7.1 5 139 94 8.6 6 175 160 12.1 7 131 154 11.2 8 158 141 9.7 9 158 137 7.4 10 132 151 7.5 11 162 110 6 12 144 113 10.1 13 162 137 7.2 14 169 129 8.5 15 129 138 6.3 16 166 148 11.5 17 185 118 6 18 155 121 6.1 19 175 111 4.1 20 136 110 9.4 21 153 133 8.5 22 110 149 9.5 23 160 86 5.3 24 112 123 8 25 147 110 8.5 26 204 122 6.1 27 131 102 6.6 28 170 127 8.4 29 173 123 8.7 30 132 131 13.8
[参考答案]
载脂蛋白C
(mg/dL) X4 14.7 17.8 16.7 15.7 13.6 20.3 21.5 29.6 18.2 17.2 15.9 42.8 20.7 16.7 10.1 33.4 17.5 20.4 27.2 26 16.9 24.7 10.8 16.6 18.4 21.0 13.4 24.7 19.0 29.2 低密度脂蛋白
(mg/dL) Y1 137 162 134 188 138 215 171 148 197 113 145 81 185 157 197 156 156 154 144 90 215 184 118 127 137 126 130 135 188 122 高密度脂蛋白
(mg/dL) Y2 62 43 81 39 51 65 40 42 56 37 70 41 56 58 47 49 69 57 74 39 65 40 57 34 54 72 51 62 85 38
①Y1和Y2对X1,X2,X3,X4的多元线性回归分析 Y1为应变量的方差分析表
40