样本类与类之间的距离有各种定义,此题中采用了类与类之间最近样本的距离---最短距离法。
求解最短距离的方法采用的是欧氏距离法,公式为:
??d(xi,xj)???(xik?xjk)2?
?k?1?令dij?d(xi,xj),D?(dij)p*p 形成一个距离矩阵
p12?0d12?d1n??d?0?d212n?? ???????dd?0n1n2??其中dij?dji
应用MATLAB软件求解上述问题,代码为: Y= pdist(X,'cityblock'); Z= linkage(Y,'average');
[H,T] = dendrogram(Z,'colorthreshold','default'); 4.2.3模型求解
MATLAB软件求解得出红葡萄酒的谱系图如下图3
图3 红葡萄酒的谱系图 从图(3)中可以看出红葡萄酒的聚类过程如下:
7、12、18、20、6、15、10、27、11为一类,4、13、19、16、25、26为一类,5、24、14、17、22、21为一类,为一类,1、8为一类。
再进行分类为7、12、18、20、6、15、10、27、11为第一类,4、13、19、16、25、26、5、24、14、17、22、21为第二类,2、3、9、23为第三类,1、8
为第四类。
从附表2中我们可以更为详细的看出红葡萄酒各个样本的分类情况如下表1: 第一类 样本7、12、18、20、6、15、10、27、11 第二类 样本4、13、19、16、25、26、5、24、14、17、22、21 第三类 样本2、3、9、23 第四类 样本1、8 表1 再根据附表1中10位品酒员对红葡萄酒打的分数,算出每一类样本的平均分数为,见表2: 聚类别 质量级 平均成绩 第三类 优 75.98 第二类 良 71.43 第一类 中 67.63 第四类 下 67.05 表2 同理,应用MATLAB软件求解得出白葡萄酒的谱系图如下图4:
图4 白葡萄酒的谱系图 从图(4)中可以看出白葡萄酒的聚类过程如下:
2、17、21、9、22为一类,1、6、8为一类, 12、15、20为一类,4、5、16、25为一类,23、28、26为一类,3、7、10、11、13、14、18为一类,24、27为一类。
再进行分类为2、17、21、9、22、1、6、8、12、15、20、4、5、16、25为第一类,23、28、26为第二类,3、7、10、11、13、14、18为第三类,24、27为第四类。
从附表2中我们可以更为详细的看出白葡萄酒各个样本的分类情况如下表3:
第一类 样本2、17、21、9、22、1、6、8、12、15、20、4、5、16、25 第二类 样本23、28、26 第三类 样本3、7、10、11、13、14、18 第四类 样本24、27 表3 再根据附表1中10位品酒员对白葡萄酒打的分数,算出每一类样本的平均分数为,见表4: 聚类别 质量级 平均成绩 第二类 优 77.1 第一类 良 76.86 第四类 中 76.55 第三类 下 75.53 表4
根据白、红葡萄酒的分类,得出葡萄的分类。 红葡萄的分类如下表5: 第一类 样本7、12、18、20、6、15、10、27、11 第二类 样本4、13、19、16、25、26、5、24、14、17、22、21 第三类 样本2、3、9、23 第四类 样本1、8 表5 白葡萄的分类如下表6: 第一类 样本2、17、21、9、22、1、6、8、12、15、20、4、5、16、25 第二类 样本23、28、26 第三类 样本3、7、10、11、13、14、18 第四类 样本24、27 表6 再求出各类样本中理化指标的均值,用此均值大体的表示优、良、中、下等级葡萄里所含的理化指标。
整理后的四类理化指标放在附录1中。
为了更好的确定哪种理化指标对于葡萄的质量起着决定行的作用,可采用求差在求比例的做法。具体为:分别用优级质量的葡萄所含的理化指标和良级、中级、下级质量的葡萄所含的理化指标做差,得出各所含量的差值,再用此差值去和下级质量的葡萄的理化指标进行做比,进一步得出,哪种理化指标是最影响葡萄质量的因素。
红葡萄质量的优级、良级、中级和下级的差值和下级质量的比值表放在附录2中(其中包括附录一(1),附录一(2),附录一(3),分别表示红葡萄优级和下级的差,良级和下级的差,中级和下级的差,再与下级质量的比值。) 白葡萄质量的优级、良级、中级和下级的差值和下级质量的比值表放在附录3中(其中包括附录二(1),附录二(2),附录二(3),分别表示白葡萄优级和下级的差,良级和下级的差,中级和下级的差,再与下级质量的比值。) 分析所得出的四个excel表,分析得出以下结论:
取一个常数??0.5,如果有w??,则说明此理化指标对葡萄质量的影响有重要的作用。分析数据,可以很清晰的得出影响红葡萄质量最重要的理化指标是
白藜芦醇和顺式白藜芦苷,次要的理化指标是,花色苷、山萘酸、丝氨酸、普氨酸、褐变度和黄酮醇等。影响白葡萄质量最重要的理化指标是顺式白藜芦醇、异鼠李素、普氨酸、酪氨酸、葡萄总黄酮,次要的理化指标是花色苷、单宁、酪氨酸、普氨酸等。
4.3分析出酿酒葡萄与葡萄酒的理化指标之间的联系 4.3.1利用SPSS软件进行数据的处理 处理步骤如下: 一、统计数据的整理
收集统计数据之后,要对获取的数据进行系统化、条理化的整理,以提取有用的信息。 1)统计分组
根据统计研究的目的和客观现象的内在特点,按葡萄的一级和二级分类指标把被研究的总体划分为若干个不同性质的组,称为统计分组。统计分组的对象是总体,分组具有分和双重含义。 (2)累计频数分布与频数分布
为了统计的需要,有时为了观察某一个数值以上或某一数值以下频数或频率之和,这就需要在基本分组的基础上绘出累计频数或累计频率。由表的上方向下方的频数或频率相加就称为“向下累计”,反之称为“向上累计”。 二、简单相关系数 偏相关分析
在多变量的情况下,变量之间的相关关系是很复杂的。因此,多元相关分析除了要利用简单相关系数之外,还要计算偏相关系数和负相关系数。这里仅讨论偏相关系数。
在对其他变量的影响进行控制的条件下,衡量多个变量中某两个变量之间的线性相关程度的指标称为偏相关系数。偏相关系数不同于简单相关系数。在计算简单相关系数时,只需要掌握两个变量的观测数据,并不考虑其它变量对这两个变量可能产生的影响。而在计算偏相关系数时,需要掌握多个变量的数据,一方面考虑多个变量相互之间可能产生的影响,一方面又采用一定的方法控制其它变量,专门考察两个特定变量的净相关关系。
在SPSS中计算偏相关系数的步骤依次选择Analyze=>Correlate=>Partial,再进行相关的操作即可。
操作后得到的数据在附录四。
经筛选出相关性大于0.5的数据,可得到表7、表8: 红葡萄
序号
花色苷 0.923 0.72 0.774 0.70
葡萄
dpph自由基 总酚
单宁
总黄酮
0.567 0.753 0.814 0.764
0.613 0.661 0.817 0.718 0.875 0.743 0.883 0.701
0.684 0.815 0.82
反式白藜芦醇(mg/kg)
顺式白藜芦醇(mg/kg)
异鼠李素 0.518 0.781 0.688 0.60
花色苷 单宁 总酚 酒总黄酮
0.544 0.513
0.618 0.502
9
白藜芦醇 半抑制体积
0.671
0.778
3 0.567 0.814
0.529
688 0.517
7 0.691
0.875 0.7
表7 白葡萄
天门甘
冬谷氨酸 氨丙氨酸 氨酸 酸
异鼠葡
异李
萄
亮总单素
亮氨酸 赖氨酸 总氨酚 宁 (m
黄
酸 g/
酮
kg) 0.556
0.719
0.746
0.547 0.744
0.574 0.573
0.588
0.595 0.592
单宁
总酚
0.586 0.544 -
0.615
0.652
0.588 0.613 -
0.756
0.752 0.633 0.728
酒总黄酮
- -
0.0.69 73
白藜芦醇 (mg/L)
0.
半抑制
55
体积
9
0.501 0.563 0.554
色泽
还原糖g/L0.514
果
可溶性固糖
体物0.
0.624 59
表8 分析上述两个表格,可以得出:
在确定酿酒葡萄与葡萄酒的理化指标中,在酿酒葡萄中选取了与葡萄酒中的花色苷、单宁、总酚、酒总黄酮、白藜芦醇、半抑制体积六项指标正相关性大的指标项,并在酿酒葡萄中进一步筛选出在葡萄酒中都含有的指标。通过图表可以得到酿酒葡萄与葡萄酒的理化指标存在着必然的联系,并且酿酒葡萄中的花色苷、DPPH自由基、总酚、单宁、葡萄总黄酮、反式白藜芦醇、顺式白藜芦醇、异鼠李素等指标在葡萄酒中起着决定性的作用。另外,大部分的属性在红葡萄酒中对色泽的影响为负相关或者是不相关,所以在挑选酿红葡萄酒的葡萄时,要格外注意。