R 表示此观测值含有大的标准化残差 X 表示受 X 值影响很大的观测值。 ln brain weight 残差正态图 和 残差与拟合值 正态概率图(响应为 ln brain weight)99.99995908070605040302010510.1百分比-4-3-2-10残差1234 与拟合值(响应为 ln brain weight)321残差0-1-2-3024拟合值6810 数据分析:
-9-
从残差图的正态图和残差与拟合值图分析,残差的分布效果更好。但是残差的正态拟合图的拟合效果仍然不是很好。并且,从上面的结果可以明显看到,对brain weight取对数进行回归以后,body weight参数的P-值明显变大。考虑到哺乳动物的brain weight和body weight还是应该有比较直接的联系的。因此我们对数据进行了进一步的调整,对body weight也取其对数值并用取对数以后的值再次进行分析。可以说哺乳动物的重量67.8%可以用妊娠周期的变异和每窝产仔数的变化来说明。在产仔相同的情况下,妊娠时间每多一天,幼仔大脑的重量提高0.015,会增加一微克。在控制其他因素的情况下,每窝幼仔多产一只,平均大脑重量会减少0.215微克。
下图是对body weight取对数后再一次回归的结果: 回归分析:ln brain weight 与 gestation period, av. Litter size, ln body weight 回归方程为 ln brain weight = 2.68 + 0.00171 gestation period (days) - 0.167 av. Litter size + 0.619 ln body weight 自变量 系数 系数标准误 T P 常量 2.6756 0.1622 16.50 0.000 gestation period (days) 0.0017055 0.0007898 2.16 0.033 av. Litter size -0.16749 0.03622 -4.62 0.000 ln body weight 0.61868 0.02724 22.71 0.000 S = 0.489498 R-Sq = 95.1% R-Sq(调整) = 94.9% 方差分析 来源 自由度 SS MS F P 回归 3 425.77 141.92 592.31 0.000 残差误差 92 22.04 0.24 合计 95 447.81 来源 自由度 Seq SS gestation period (days) 1 291.10 av. Litter size 1 11.05 ln body weight 1 123.62 异常观测值 gestation period ln brain 拟合值 标准化 观测值 (days) weight 拟合值 标准误 残差 残差 24 270 7.1701 5.5512 0.0756 1.6190 3.35R 40 21 0.8671 0.7040 0.1776 0.1631 0.36 X 52 360 7.3778 6.2620 0.1177 1.1158 2.35R -10-
72 655 8.4074 8.5358 0.2956 -0.1285 -0.33 X 75 390 5.5215 6.5376 0.1337 -1.0162 -2.16R 77 115 5.1930 4.7780 0.2347 0.4150 0.97 X 78 240 6.3801 7.3992 0.1101 -1.0191 -2.14R R 表示此观测值含有大的标准化残差 X 表示受 X 值影响很大的观测值。 ln brain weight残差正态图 残差与拟合值 正态概率图(响应为 ln brain weight)99.99995908070605040302010510.1百分比-1.5-1.0-0.50.0残差0.51.01.52.0 -11-
与拟合值(响应为 ln brain weight)1.51.00.5残差0.0-0.5-1.0024拟合值68 数据分析:
对body weight取对数以后的回归结果,明显好于之前。三个自变量的P-值<0.05,说明可以拒绝自变量的系数为0的假设。因此,可以认为哺乳动物大脑容量和其他几种因素是具有一定联系的。根据回归的结果,异常数据有3个数据点残差大,这表明这些数据点与方程拟合程度一般。其中残存最大的两种哺乳动物是人类和海豚,如上图上方2个数据点所示。人类作为一种高智商的哺乳动物,在统计数据分析过程中,体现出一个比较大的残差值还是可以理解的。同样,我们从统计分析中也可以得知海豚也是一种高智商的哺乳动物。这些结论都和我们日常生活常识是吻合的。
3.3 数据模型的确定
Minitab提供了自动选择最优的回归模型的功能,为了确定最后的数据统计分析模型,我们尝试让Minitab自动得出一个结论。回归的汇总报告如图所示:
-12-
ln brain weight 与 ln body weight 的回归汇总报告Y: ln brain weightX: ln body weightY 和 X 之间存在关系吗?00.050.1> 0.57.5线性模型的拟合线图Y = 2.333 + 0.7191 XP = 0.000ln brain weight 和 ln body weight 之间的关系具有显著的统计意义 (p < 0.05)。ln brain weight是否5.02.5模型所解释的变异 %00%0.0-50ln body weight注释用于描述 Y 和 X 之间的关系的线性模型的拟合方程是: Y = 2.333 + 0.7191 X如果此模型与数据拟合得很好,可使用此方程预测 ln bodyweight 的值为 ln brain weight,或查找对应于 ln brainweight 的所需值或值范围的 ln body weight 的设置。 具有显著统计意义的关系并不表示 X 导致 Y。5 R-sq(调整)= 92.90%ln brain weight 中 92.90% 的变异可能是由回归模型导致的。Y 和 X 之间相关负 非相关 正-1010.96正相关 (r = 0.96) 表示当 ln body weight 增加时,lnbrain weight 也趋于增加。 ln brain weight 与 ln body weight 的回归模型选择报告Y: ln brain weightX: ln body weight线性模型的拟合线图Y = 2.333 + 0.7191 X8残差大ln brain weight6420二次模型-5.0-2.50.02.5ln body weight5.07.5您选择了 线性模型,但 二次模型 具有显著的二次项 以及较高的调整的 R 平方。请考虑改用二次模型。统计量 R 平方(已调整)P 值,模型P 值,线性项P 值,二次项P 值,立方项残差标准差* 具有显著的统计意义 (p < 0.05) 选定的模型线性92.90%0.000*0.000*--0.579备择模型二次立方93.40?.41%0.000*0.000*0.000*0.000*0.005*0.580-0.2800.5580.557 从上面的分析中,看到ln brain weight和ln body weight之间用线性模型进行拟合的效果要
-13-