四、符号说明
t 样品平均数与总体平均数的利差统计量
X 样品平均数
? 总体平均数
S2 样本方差
? 为一常量,在问题二中取0.5
w 差值之后的再取比值
五、模型的建立与求解
5.1考虑评酒员的评价结果有无显著性差异以及可信度 5.1.1利用t检验判断两组评价结果是否有显著性差异
当要检验两个样本测量得到的平均数是否存在显著差异时,可以先假定它们是来自于同一总体,应该能代表同一总体,然后以此为前提考察这两个样本平均数差异量发生的概率。如果差异量足够大,其发生概率小于0.05,我们就说其是小概率事件,成为“可能性很小” 的事件,这就意味着假设前提成为 “可能性很小”的,即二者来自于同一总体的 “可能性很小” ,进而推断 :这两个样本很可能来自于两个不同总体,分别代表两个不同的总体 ,存在显著性差异。否则 ,就不能说假设前提是“可能性很小”的,也就不能说两个样本有显著性差异了。
5.1.2建模的过程如下:
第一步,建立零假设 H0:?1??2 第二步,判断两总体方差的均值是否相等
若t值所对应的p值<显著水平,则认为两总体方差均值不等。 若t值所对应的p值>显著水平,则认为两总体方差均值相等。 第三步,构造t统计量
t?(X1?X2)(n1?1)S?(n2?1)S11(?)n1?n2?2n1n22122~t(n1?n2?2)
第四步,查表 第五步,作出推断
若p值<显著水平?,则拒绝零假设,即认为两总体总均值存在显著差异。
若p值>显著水平?,则不能拒绝零假设,即认为两总体总均值不
存在显著差异。
5.1.3可信度的评比依据
可信度的判定主要依据两组数据的方差S和S2的大小进行评定,方差较小的一组可以认为评酒员的总体评酒比较稳定,即为可信度较高。
5.1.4模型求解
应用MATLAB软件对上述问题进行求解,代码为: X=[ 1 1.3615 2 2.806 3 2.2099 4 0.7092 5 0.4598 6 2.1871 7 1.6027 8 2.0103 9 1.436 10 2.206 11 2.7162 12 4.6893 13 2.4913 14 0.1734 15 2.0702 16 2.696 17 1.6231 18 1.8569 19 1.9751 20 1.1567 21 1.3265 22 2.157 23 3.7445 24 2.3417 25 0.3202 26 0.703 27 0.5964 ] Y=[ 2.262 2.262 2.262 2.262 2.262 2.262
1
2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 2.262 ]
Plot(x,’.’); Hold on Plot(y); X2=[ 1 1.2575 2 0.3372 3 0.4351 4 0.8944 5 2.8322 6 1.738 7 1.2196 8 0.2047 9 1.7721 10 1.0897 11 0.1843 12 1.8965 13 1.808 14 1.4904 15 1.4679 16 1.3844 17 0.37
18 0.878 19 1.6448 20 0.3739 21 0.6061 22 2.0193 23 0.6721 24 0.7629 25 0.6752 26 1.7598 27 3.0315 28 0.5508 ]
Plot(x2); Hold on Plot(y)
绘制出白葡萄酒和红葡萄酒显著性差异图,如下图1、2
图1 白葡萄酒的显著性判断差异图
图2 白葡萄酒的显著性判断差异图
由上述两图得到白葡萄酒和红葡萄酒大部分在显著性水平线以下,可以得出两组评酒员的评价结果没有显著性差异。对于图1,只有两组数据在显著水平之上,不排除人为因素影响造成的误差,所以,可以很合理的得出:两组评酒员对白葡萄酒的评价结果无显显著性差异。同时,对于红葡萄酒的评价结果,虽然有一些数据在显著性水平线以上,但大多部分仍处于显著性水平线以下,由此可以推断出评酒员对红葡萄酒的评价结果也无显著性差异。
4.2根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级 4.2.1用聚类分析法解决此问题
聚类分析的基本思想是在样品之间定义距离,在变量之间定义相似系数,或相似系数代表样品获变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚集到一个小的分类单位中,然后逐步扩大,使得关系疏远的集合聚集到一个大的分类单位中,知道所有的样品或(变量)都聚集完毕,形成一个表示亲疏关系的谱系图,一次按照某些要求对样品(或变量)进行分类。 为了更好的对葡萄酒进行分类,本题采用聚类分析的方法,对白葡萄酒和红葡萄酒进行适当的分类。在本问题中,为了能更充分的了解葡萄的理化指标对葡萄酒的质量的影响,分为4类。
分类的方法运用的是聚类分析中的最短路径方法。通过此数学方法的解析,可以识别出葡萄酒中含有的花色苷、单宁、总酚、酒总黄酮、白藜芦醇、DPPH半抑制体积以及色泽(包括L*(D65)、a*(D65)和b*(D65))对葡萄酒质量的影响。 聚类分析是将一批样本或变量,按照他们在性质上亲疏远近的程度进行分类。为了使分类合理,必须描述样本或变量之间的亲疏程度。对此,有两个途径,一个是吧把每个样本看成m维空间的一个点,在点与点之间定义某种距离;第二是用某种相似系数来描述样本之间的关系。在本题中采用了第一种。
聚类的方法是聚合法。这种方法是开始时每个样本自成一类,然后将距离最近的类合并,使类的数目减少,如此下去,直至所有样本的都能成一类为止,最后再画出谱系图。
4.2.2确定类与类之间的距离