均值是否等于m.返回参数h=1表示在显著性水平为0.05时拒绝H0,h=0表示在显著性水平为0.05时接受H0.
h = ztest (x, m, alpha) 给出了显著性水平控制参数alpha.
[h, sig, ci] = ttest (x, m, alpha, tail) 可以通过制定tail的值来控制备择假设H1.tail的取值及意义与ztest函数一致.
返回值sig是t(n?1)分布以统计量 T?x?m 的观测值为分位数的临界概率,即 s/ntail = 0时 sig?Pt?T??;
tail =?1时 sig?P?t?T?; tail = 1时 sig?P?t?T?.
其中t~t(n?1).当sig < alpha(等价于h=1)时拒绝H0,否则接受H0. 3. 两个正态总体均值差的t检验
函数:ttest2 ()
语法:[h, sig, ci] = ttest2 (x,y)
[h, sig, ci] = ttest2 (x, y, alpha) [h, sig, ci] = ttest2 (x, y, alpha, tail)
进行两正态总体均值是否相等的t检验,使用的统计量为
T?x?y,
11sw?n1n2各参数的含义与函数ttest一致.
11.7.4 方差分析
1. 单因素方差分析 函数anova1()
语法:P=anova1(x)
[P,table]=anova1(x)
[P,table,stats]=anova1(x)
P=anova1(x) 比较数据x (n?k) 中各列观测数据相应的总体均值是否相等.x中的每一列表示一个水平的n次独立的观测值.函数返回零假设
36
H0:?1??2????k
成立的(临界)概率值.如果P<0.05,则拒绝H0,认为k个均值之间的差异显著;如果P<0.01,则认为k个均值之间的差异极显著.
Anova1函数显示两幅图表,第一幅为方差分析表,其前五列与表9.4一致,第六列显示临界概率P.第二幅图表为x各列数据的盒形(box)图.如果盒形图的中心线差别很大,则对应的F值很大,相应的概率值P就小.
[P,table]=anova1(x) 以单元数组的形式返回方差分析表.
[P,table,stats]=anova1(x) 返回stats结构,利用stats结构可以接下来进行多重比较. 2. 双因素方差分析 函数anova2()
语法:P=anova2(x,reps)
[P,table]=anova2(x,reps)
[P,table,stats]=anova1(x,reps)
P=anova2(x,reps) 进行双因素方差分析.其中,数据矩阵x的结构如表9.10所示;参数reps表示重复实验的次数,缺省值为1(无重复).返回参数P是一个3维向量,包含如下3个概率值:
(1) 零假设HB:因素B对试验结果无显著影响 成立的概率; (2) 零假设HA:因素A对试验结果无显著影响 成立的概率; (3) 零假设HAB:因素AB对试验结果无显著影响 成立的概率; 参数table和stats的含义与函数anova1一致. 3. 多重比较
函数multcompare()
语法:c= multcompare(stats)
c= multcompare(stats,alpha)
c= multcompare(stats) 利用stats结构中的信息进行多重比较,返回成对比较的结果矩阵c,也显示一个表示检验的交互式图表.
c是一个5列的矩阵.例如,假如c中某一行的内容为2.0000 5.0000 1.9442 8.2206 14.4971时,表示组2的均值和组5的均值比较,均值差的估计值为8.2206,其95%的置信区间为(1.9442,14.4971).这里,置信区间中不包含0,说明在0.05的显著水平上,两个均值的差异是显著的.如果置信区间包含0,则说明在0.05的显著水平上,两个均值的差异不显著.
11.7.5 回归分析
对于多元线性回归模型:
y??0??1x1????pxp?e
设变量x1,x2,?xp,y的n组观测值为
37
(xi1,xi2,?xip,yi)i?1,2,?,n.
?1??1记 x?????1?
x11x21?xn1x12x22?xn2?x1p???0??y1???????x2p???1??y2?y?,,则????? 的估计值为 ??????????????????xnp??yn??p???(x'x)?1x'y (11.2) b??在Matlab中,用regress函数进行多元线性回归分析,应用方法如下: 语法:b = regress(y, x)
[b, bint, r, rint, stats] = regress(y, x) [b, bint, r, rint, stats] = regress(y, x, alpha)
b = regress(y, x),得到的p?1维列向量b即为(11.2)式给出的回归系数?的估计值. [b, bint, r, rint, stats]=regress(y, x) 给出回归系数?的估计值b,?的95%置信区间((p?1)?2向量)bint,残差r以及每个残差的95%置信区间(n?2向量)rint;向量stats给出回归的R2统计量和F以及临界概率p的值.
如果?i的置信区间(bint的第i?1行)不包含0,则在显著水平为?时拒绝?i?0的假设,认为变量xi是显著的.
[b, bint, r, rint, stats]=regress(y, x, alpha) 给出了bint和rint的100(1-alpha)%的置信区
间.
9 附表Excel 数据分析工具一览表
“F - 检验:双样本方差分析”
此分析工具可以进行双样本F - 检验,用来比较两个样本总体的方差。例如,可以对参加游泳比赛的两个队的时间记分进行F- 检验,查看二者的样本方差是否不同。
38
“t - 检验:成对双样本均值分析”
此分析工具及其公式可以进行成对双样本学生氏t - 检验,用来确定样本均值是否不等。此t -检验并不假设两个总体的方差是相等的。当样本中出现自然配对的观察值时,可以使用此成对检验,例如对一个样本组进行了两次检验,抽取实验前的一次和实验后的一次。
“t - 检验:双样本等方差假设”
此分析工具可以进行双样本学生氏t - 检验。此t- 检验先假设两个数据集的平均值相等,故也称作齐次方差t - 检验。可以使用t - 检验来确定两个样本均值实际上是否相等。
“t - 检验:双样本异方差假设”
此分析工具及其公式可以进行双样本学生氏t –检验。此t - 检验先假设两个数据集的方差不等,故也称作异方差t - 检验。可以使用t - 检验来确定两个样本均值实际上是否相等。当进行分析的样本组不同时,可使用此检验。如果某一样本组在某次处理前后都进行了检验,则应使用“成对检验”。
“z - 检验:双样本均值分析”
此分析工具可以进行方差已知的双样本均值z -检验。此工具用于检验两个总体均值之间存在差异的假设。例如,可以使用此检验来确定两种汽车模型性能之间的差异情况。
“抽样分析”
此分析工具以输入区域为总体构造总体的一个样本。当总体太大而不能进行处理或绘制时,可以选用具有代表性的样本。如果确认输入区域中的数据是周期性的,还可以对一个周期中特定时间段中的数值进行采样。例如,如果输入区域包含季度销售量数据,以四为周期进行取样,将在输出区域中生成某个季度的样本。
“傅立叶分析”
此分析工具可以解决线性系统问题,并能通过快速傅立叶变换(FFT)分析周期性的数据。此工具也支持逆变换,即通过对变换后的数据的逆变换返回初始数据。
“回归分析”
此工具通过对一组观察值使用“最小二乘法”直线拟合,进行线形回归分析。本工具可用来分析单个因变量是如何受一个或几个自变量影响的。例如,观察某个运动员的运动成绩与一系列统计因素的关系,如年龄、身高和体重等。在操作时,可以基于一组已知的体能统计数据,并辅以适当加权,对尚未进行过测试的运动员的表现作出预测。
“描述统计”
此分析工具用于生成对输入区域中数据的单变值分析,提供有关数据趋中性和易变性的信息。
39
“排位和百分比排位”
此分析工具可以产生一个数据列表,在其中罗列给定数据集中各个数值的大小次序排位和相应的百分比排位。用来分析数据集中各数值间的相互位置关系。
“ 随机数发生器”
此分析工具可以按照用户选定的分布类型,在工作表的特定区域中生成一系列独立随机数字。可以通过概率分布来表示主体的总体特征。例如,可以使用正态分布来表示人体身高的总体特征,或者使用双值输出的伯努利分布来表示掷币实验结果的总体特征。
“相关系数”
此分析工具及其公式可用于判断两组数据集(可以使用不同的度量单位)之间的关系。可以使用“相关系数”分析工具来确定两个区域中数据的变化是否相关,即,一个集合的较大数据是否与另一个集合的较大数据相对应(正相关);或者一个集合的较小数据是否与另一个集合的较小数据相对应(负相关);还是两个集合中的数据互不相关(相关性为零)。
“协方差”
此分析工具及其公式用于返回各数据点的一对均值偏差之间的乘积的平均值。协方差是测量两组数据相关性的量度。可以使用协方差工具来确定两个区域中数据的变化是否相关,即,一个集合的较大数据是否与另一个集合的较大数据相对应(正协方差);或者一个集合的较小数据是否与另一个集合的较小数据相对应(负协方差);还是两个集合中的数据互不相关(协方差为零)。
“移动平均”
此分析工具及其公式可以基于特定的过去某段时期中变量的均值,对未来值进行预测。移动平均值提供了由所有历史数据的简单的平均值所代表的趋势信息。使用此工具可以预测销售量、库存或其它趋势。
“直方图”
在给定工作表中数据单元格区域和接收区间的情况下,计算数据的个别和累积频率,用于统计有限集中某个数值元素的出现次数。例如,在一个有20名学生的班级里,可以确定以字母打分(如A、B-等)所得分数的分布情况。直方图表会给出字母得分的边界,以及在最低边界与当前边界之间某一得分出现的次数。出现频率最多的某个得分即为数据组中的众数。
“指数平滑”
此分析工具及其公式基于前期预测值导出相应的新预测值,并修正前期预测值的误差。
40
此工具将使用平滑常数a,其大小决定了本次预测对前期预测误差的修正程度。
“Anova:单因素方差分析”
此分析工具通过简单的方差分析(anova),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如t-检验)的扩充。
“Anova:可重复双因素分析”
此分析工具是对单因素anova 分析的扩展,即每一组数据包含不止一个样本。
“Anova:无重复双因素分析”
此分析工具通过双因素anova 分析(但每组数据只包含一个样本),对两个以上样本均值进行相等性假设检验(抽样取自具有相同均值的样本空间)。此方法是对双均值检验(如t-检验)的扩充。
41