曾经假设H0:μ=34g,正好落入上述置信区间,接受H0:μ=34g的假设,即新引入品种与当地品种的千粒重没有显著差异。
第五章
方 差 分 析
5.1 方差分析的基本原理
上章介绍了一个或两个样本平均数的假设测验方法。本章将介绍k(k≥3)个样本平均数的假设测验方法,即方差分析(analysis of variance)。这种方法的基本特点是:将所有k个样本的观察值和平均数作为一个整体加以考虑,把观察值总变异的自由度和平方和分解为不同变异来源的自由度和平方和,进而获得不同变异来源的总体方差估计值。 其中,扣除了各种试验原因所引起的变异后的剩余变异提供了试验误差的无偏估计,作为假设测验的依据。
5.1.1 自由度和平方和的分解
方差是平方和除以自由度的商。要将一个试验资料的总变异分解为各个变异来源的相应变异,首先必须将总自由度和总平方和分解为各个变异来源的相应部分。因此,自由度和平方和的分解是方差分析的第一步。
下面我们首先用一个例子来说明这一问题。
[例5.1]以A、B、C、D4种药剂处理水稻种子,其中A为对照,每处理各得4个苗高观察值(cm),试分解其自由度和平方和。
1、总变异
把表中的全部观察值作为一个组看待[即把4个处理(4组、每组有4个观察值)合并成一组,共有16个观察值],根据前面讲过的计算平方和的公式 ,可以计算出总变异的平方和
2和自由度 (y)336222222SST?(yi?y)?y??18?21???32??602 nk4?4
(y)2T2其中: ? 称为矫正数,用C表示。
nknk
自由度DFT=nk-1=4×4-1=15。
表中的每一个观察值,即包括有处理的效应(不同药剂对苗高的影响)又受到误差的影响。 2、误差效应
表中处理内(组内)各观察值之间,若不存在误差,则各观察值应该相等,由于误差是客观存在的,因而处理内(组内)各观察值之间必然是有差异的,因此,可以用组内(处理内)的差异度量误差效应:
????
从理论上讲,这4个误差平方和除以相应的自由度得的误差均方都可以作为总体误差方差的无偏估计值。但是,用它们的加权平均值来估计总体误差方差,则效果更佳。所以:
kn
SSe?(yij?yi)2?38?20?26?14?98 11每个组内(处理内)的自由度为:n -1=4-1=3, 所以误差的自由度为:DFe=k(n-1)=4(4-1)=12 3、处理效应
如果没有处理效应,表中各个处理(组)平均数
??来度量处理效应。 SSt?
2(y?y),?i1k
DFt?(k?1)
为了进行正确的F 测验,必须使它们都是估
2k应为: Ti2SSt?nSSt?n(yi?y)??C n1k
SSt?n(yi?y)2?4?[(18?21)2?(23?21)2 1
?(14?21)2?(29?21)2]?504 2T722?922?562?1162i SS??C??7056?504tn4
SST?SSt?SSe,DFT?DFt?DFe
本例中 平方和: 602=504+98
????
自由度: 15=3+12
因此误差平方和可以采用简单的办法计算 SSe=SST-SSt=602-504=98。
SSt504进而可得均方: MSt?st2???168.00df3t
SS98
MSe?se2?e??8.17dfe12
将上述例子推广到一般,设有k组数据,每组皆具n个观察值,则资料共有nk个观察值,其数据分组如表6.1(P99)。
平方和与自由度的分解归纳为下表
5.1.2 F分布与F测验 一、F 分布
在一个平均数为μ、方差为σ2的正态总体中随机抽取两个独立样本,分别求得
按上述方法从正态总体中进行一系列抽样,就可得到一系列的F值而作成一个F分布。它是具平均数μF=1和取值区间为[0, ∞]的一组曲线; 而某一特定曲线的形状仅决定于参数ν1和ν2。
F分布下一定区间的概率可从已制成的统计表中查出。附表5给出了各种ν1和ν2下右尾概率α=0.05和α=0.01
二、F 测验
在方差分析的体系中,F测验可用于检测某项变异因素的效应或方差是否存在。所以在计算F值时,总是将要测验的那一项变异因素的均方作分子,而以另一项变异(如误差项)作分母。
F测验需具备的条件:(1)变数y遵循N(μ,σ2);
是否显著大于药剂内变异?
测验计算:
将例6.1和例6.3的分析结果归纳在一起,列出方差分析表如下: 水稻药剂处理苗高方差分析表
5.2.4 多重比较方法的选择
1、试验事先确定比较的标准,凡是与对照相比较,或与预定要比较的对象比较,一般可选用最小显著差数法;
2、根据否定一个正确的H0和接受一个不正确的H0的相对重要性来决定。 方差分析的基本步骤:
(1)分解平方和与自由度;(2)F测验;(3)平均数的多重比较。
第八章
直线回归与相关
8.1 回归与相关的概念 1、函数关系与统计关系
函数关系是一种确定的关系。例如圆面积与半径的关系为:
统计关系是一种非确定关系,即一个变数的取值受到另一变数的影响,两者之间有关系,但又不存在完全确定的函数关系。 2、自变数与依变数
对据有统计关系的两个变数,分别用变数符号Y 和X 表示。根据两个变数的作用特点,统计关系又可分为因果关系和相关关系两种。
两个变数间的关系若有原因和反应(结果)的性质,则称这两个变数间存在因果关系,并定义原因变数为自变数(independent variable),以X 表示; 定义结果变数为依变数(dependent variable),以Y 表示。 如果两个变数并不是原因和结果的关系,而呈现一种共同变化的特点,则称这两个变数间存在相关关系。
相关关系中没有自变数和依变数之分。 3、回归分析和相关分析
(1)对具有因果关系的两个变数,统计分析的任务是由实验数据推算出一个表示Y 随X 的
?改变而改变的方程 y ? f ( x ) ,称之为回归方程(regression equation of Y on X ),这一过程
称为回归分析。
(2)对具有相关关系的两个变数,统计分析的目标是计算表示Y和X相关密切程度的统计数,并测验其显著性。这一过程称为相关分析。 4、两个变数资料的散点图
将两个变数的n对观察值(x1,y1)、(x2,y2)、?、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上得到的图,
称为散点图(scatter diagram)。 8.2直线回归
??a?bx8.2.1 直线回归方程 y?称为直线回归方程(linear regression equation)。其中a 是x=0时的 y 值,即回归直线在y 轴
上的截距,叫回归截距(regression intercept);b 是x 每增加一个单位数时,y ?平均地将要增加(b>0时)或减少(b<0时)的单位数,叫回归系数(regression coefficeint)。 式中 ( x ? x )( y ? y ) 是x的离均差和y的离均差的乘积之和,简称乘积和(sum of products),记作SP。
二、直线回归方程的计算
[例9.1P160]一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4 月中旬旬平均温度累积值(x,旬.度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于下表。试计算其直线回归方程。
?
由观察值计算一级数据
由一级数据计算二级数据
因而有:
??48.5845?1.0996x从而得到回归方程: y四、直线回归的估计标准误 满足 Q ? ( y ? y ) 2 为最小的直线回归方程和实测的观察点并不重合,表明该回归?方程仍然存在随机误差。
Q 就是误差的一种度量,称之为离回归平方和或剩余平方和。
?