图1 正态性检验
可以看出,除少数异常点外,图形基本呈现直线型形态,这说明这四个样本都满足正态分布,满足进行T检验的基本条件。到此样本完全满足进行配对样本T检验的所有前提条件,我们利用SPSS软件进行,得到下表:
表2-成对样本检验
成对差分 均值 标准差 均值的差分的 95% 置信区间 标准误 下限 上限 .4489 -4.3038 4.6918 t df Sig.(双侧) .019 .021 第一对 2.5704 5.3628 1.0321 第二对 -2.3444 4.9531 .9532 2.490 26 -.3851 -2.459 26 根据以上输出结果我们可以得到第一组红酒 - 第二组红酒pearson值为0.019<0.05,第一组白酒 - 第二组白酒pearson值为0.021<0.05。两组红酒和白酒的评分都存在明显的差异。由此我们可以得出结论:两组评酒员的评价结果存在显著性差异。
因此,以上我们通过matlab编程对数据进行正态性检验后再用spss进行配对T检验。可以看出,两组品酒员的评价结果存在显著性差异。这说明两组品酒员的评价结果中有一组并不准确可信。因此我们对问题进一步深入研究,通过可信度分析
6
方法分析两组品酒员品酒结果的可信度。 5.1.3 可信分析
在葡萄酒的感官评价中, 由于品酒员间存在评价尺度、评价位置和评价方向等方面的差异, 导致不同品酒员对同一酒样的评价差异很大, 从而不能真实地反映不同酒样间的差异。所以我们认为,品酒员给的评分波动值越大时,说明此品酒员的可信度越低。【1】下面我们将分别对附件1中两组评酒员所给出的评分进行方差分析,然后再去分析哪一组的评酒员可信度比较高。(方差分析表见附录2)
由上面的方差分析结果可以知道,第一组和第二组的P值和F值都相差不大,所以我们只能用组间离均平方和去比较他们的波动性。第一组红葡萄酒评分的组间离均平方和为3172.573,第一组白葡萄酒评分的组间离均平方和为18023.93,第二组红葡萄酒评分的组间离均平方和为3060.774,第二组白葡萄酒评分的组间离均平方和为6645.781。很显然,第二组评酒员所给的评分的波动性比较小,所以第二组评酒员所给的评分是更可信的。
表3-各组葡萄组间离均平方和对比 组间离均平方和 组间离均平方和 第一组红葡萄 3172.573 第二组红葡萄 3060.774 第一组白葡萄 18023.93 第二组白葡萄 6645.781 5.2问题二模型
5.2.1问题二模型的准备
聚类分析的理论:
系统聚类的步骤一般是首先根据一批数据或指标找出能度量这些数据或指标之间相似程度的统计量;然后以统计量作为划分类型的依据,把一些相似程度大的指标(项目)首先聚合为一类,而把另一些相似程度较小的指标(项目)聚合为另一类,直到所有的指标(项目)都聚合完毕,最后根据各类之间的亲疏关系,逐步画成一张完整的分类系统图,又称谱系图。进行类别合并的准则是使得类间差异最大,而类内差异最小为了将一些指标(项目)进行分类,就需要研究指标(项目)之间关系。是将一个指标看作P 维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。 5.2.2问题二模型的求解
根据系统所附表格—葡萄和葡萄酒的理化指标表格,葡萄的理化指标分为一级指标和二级指标,从数据中也不难发现,对于大多数一级指标来说,它是由旁副的几个二级指标的加和得到的。为了计算简便,我们只选用一级指标来进行分析,以一级指标概括描述二级指标。分析数据后,得知总共划分为30个指标,对于红葡萄和白葡萄两个样本,我们选择将它们分开来进行分析。考虑到指标众多,我们先选取红葡萄的理化指标进行因子分析,利用因子分析法进行降维,达到简化数据的目的。该过程利用SPSS软件实现。通过对葡萄的指标进行评价,提炼出几个对葡萄总体理化指标有显著影响的因子,见表4。
表4-因子分析
7
氨基酸总量 蛋白质 花色苷 酒石酸(g/L) 苹果酸(g/L) 柠檬酸(g/L) 多酚氧化酶活力 褐变度 总酚(mmol/kg) 葡萄总黄酮(mmol/kg) 黄酮醇(mg/kg) 总糖g/L 可溶性固形物g/l 果梗比(%) 出汁率(%) 初始 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 提取 0.958 0.828 0.892 0.864 0.890 0.825 0.701 0.904 0.898 0.826 0.660 0.878 0.920 0.803 0.612 在进行因子分析后,我们发现原本的30个指标只被采用了15个,由此达到一个缩减指标的目的,但剩下的15个指标能很好地反映原本样本模型,接下来我们利用这15个指标对红葡萄进行聚类分析【2】,得到图2。 图2-红葡萄的聚类分析谱系图 8
对红葡萄的27个样本聚类谱系图。依据谱系图聚成5类。接着,我们对这五类红葡萄所对应的葡萄酒的质量进行量化。【3】选取第一问模型得出的较可靠的第二组评酒员的打分作为葡萄酒质量的衡量标准。我们得到下表。从五类红葡萄所对应的葡萄酒得分均值及方差表中,不难发现每一类葡萄的均值呈递增趋势,在表的基础上我们制定标准,将葡萄分为A、B、 C、D、E五个级别。第一类葡萄所酿葡萄酒质量评分均值明显最低,我们将其划为E级红葡萄,这种葡萄质量最差。同样的,第二类、第三类、第四类、第五类红葡萄分别定为D、C、B、A四个等级,分别代表质量较差,质量一般,质量较好,质量最好的四种酿酒葡萄。这样我们就实现了对葡萄的分级。
表5-红葡萄酒的聚类分析表 葡萄酒编号 质量评分均值 方差 61.6 0 第一类 11 66.325 1.94 第二类 6、7、12、18 68.9 11.37 第三类 1、8、14 4、5、10、13、15、16、17、19、70.96923 7.283 第四类 20、22、24、25、26、27 75.22 5.852 第五类 2、3、9、21、23 表6-红葡萄的分级 分级 葡萄酒编号 A级酿酒红葡萄 2、3、9、21、23 B级酿酒红葡萄 4、5、10、13、15、16、17、19、20、22、24、25、26、27 C级酿酒红葡萄 1、8、14 D级酿酒红葡萄 6、7、12、18 E级酿酒红葡萄 11 对于白葡萄,我们采用同样的方法,做出来的分级如下:
表7-白葡萄的分级 分级 葡萄酒编号 A级酿酒白葡萄 5、9、15、17、28 B级酿酒白葡萄 1、10、14、22、25、27 C级酿酒白葡萄 4、12、18、19、20、23、24、26 D级酿酒白葡萄 2、3、6、7、8、13 E级酿酒白葡萄 11、16 白葡萄也分为A、B、C、D、E五个等级,分别代表质量最好,质量较好,质量一般,质量较差,质量最差的五种酿酒葡萄。其中,编号为5、9、17、15、28的酿酒白葡萄为A级酿酒葡萄,编号为27、14、1、22、25、10的酿酒白葡萄为B级酿酒葡萄,编号为12、26、19、4、23、24、18、20的酿酒白葡萄为C级酿酒葡萄,编号为2、3、6、7、8、13的酿酒白葡萄为D级酿酒葡萄,编号为11、16的酿酒白葡萄为E级酿酒葡萄。
9
5.3 问题三模型
5.3.1 问题三模型的准备
典型相关分析的理论依据
首先在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。然后选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此继续下去,直到两组变量之间的相关性被提取完毕为此。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。典型相关系数度量了这两组变量之间联系的强度。 5.3.2 问题三模型的建立 图3-酿酒红葡萄与红葡萄酒的理化性指标之间的相关系数 根据相关性挑选出了15红葡萄酒个理化指标相关性较强的指标,分别是x1、
x2、x4、x6、x9、x10、x11、x12、x13、x14、x15、x25、x28、x29、x30。接下来用
这些15酿酒红葡萄的指标与红葡萄酒的指标进行典型相关分析。我们利用sas软件中的“分析家”实现典型相关分析。接下来我们将一步一步讲解运行的结果所代表的意思。
(1)典型相关系数及显著性检验
第一部分的四列依次是:典型相关系数、修正的典型相关系数、近似的标准误一级典型相关系数的平方。从图7-10中可以看出,本例选取了九个典型相关系数,第一个典型相关系数CanR1=0.999636,其修正值为0.999341,标准误为
10