其中F为因子变量或公共因子,A为因子载荷矩阵,aij为因子载荷,是第i个原有变量在第j个因子变量上的负荷。 公共因子Fj的方差贡献定义为因子载荷矩阵A中第j列各元素的平方和,即: p Sj??i?1aij2 (9) 公共因子Fj的方差贡献反映了该因子对所有原始变量总方差的解释能力,其值越高说明因子重要程度越高。 主成份分析把p个原有变量x1,x2,?,xp的总方差分解为p个独立的变量y1,y2,?,yp的方差之和,那么: p ?k??k/?? (10) kk?1 就称为第k个主成份yk的方差贡献率。第一主成份贡献率最大,这表明y1综合原始变量的能力最强,而y1,y2,?,yp综合原始变量的能力依次减弱。如果只取其中m个主成份?m?p?,那么: mpk ?m???k?1?? (11) kk?1是这m个主成份的累积贡献率,累积贡献率表明这y1,y2,?,ym 综合x1,x2,?,xp的能力。通常取m使得累积贡献率达到一个较高的百分比。 将红葡萄样品和白葡萄样品各项理化指标数据分别带入上述模型,求解两次,即可得到红葡萄样品和白葡萄样品各自的指标得分。特别说明,在本模型求解中,将葡萄样品的所有的芳香物质归纳为芳香物质一类。用SPSS软件求解,红葡萄的理化指标因子分析后得到红葡萄样本的主成份,并根据其主成份的方差贡献率对主成份排序,具体结果如下表: 表格 2.1 红葡萄样品主成份及其排序 主成份
1 2 3 9
4 5 6 7
序列 主成份 主成份序列 主成份 再逐样分析葡萄样品的理化指标,确定每个葡萄样品中含量最多的主成份在上述排序中的序列,据此给出酿酒葡萄的指标得分,并将指标得分转换成百分制,各红葡萄样品的主成份排序及指标得分结果如表格6: 表格 2.2 红葡萄样品主成份序列及指标得分 花色苷 8 酪氨酸 缬氨酸 9 百粒质量 干物质含量 10 果皮质量 顺式白藜芦醇苷 11 多酚氧化酶活力 PH值 12 VC含量 多酚氧化酶活力 13 芳香物质 果梗比 红葡萄1 2 样品号 主成份4 7 排序 指标得26.6 46.6 分 红葡萄10 11 样品号 主成份10 5 排序 指标得66.6 33.3 分 红葡萄19 20 样品号 主成份12 2 排序 指标得80 13.3 分 (2)求解质量得分 3 3 20 12 3 20 21 9 60 4 12 80 13 6 40 22 2 13.3 5 9 60 14 13 6 3 20 15 13 7 13 86.6 16 11 8 6 40 17 11 9 1 6.6 18 3 20 27 11 86.6 86.6 73.3 73.3 23 1 6.6 24 12 80 25 12 80 26 7 46.6 73.3 问题一中已论证二组评酒员的评价结果可信,所以红葡萄酒的质量直接参考二组评酒员的评价结果,得到每种红葡萄样品酿制的红葡萄酒的质量如下: 表格 2.3 红葡萄样品酿制得红葡萄酒的质量
10
红葡萄样品号 1 2 74 11 61.6 20 75.8 3 74.6 12 68.3 21 72.2 4 71.2 13 68.8 22 71.6 5 72.1 14 72.6 23 77.1 6 66.3 15 65.7 24 71.5 7 65.3 16 69.9 25 68.2 8 66 17 74.5 26 72 9 78.2 18 65.4 27 71.5 质量得分 68.1 红葡萄样品号 10 质量得分 68.8 红葡萄样品号 19 质量得分 72.6 提取表格6和表格7中红葡萄样品的指标得分和质量得分,计算酿酒红葡萄的综合得分,酿酒葡萄的理化指标和其酿造的葡萄酒的质量都对葡萄的综合评价很重要,指标得分和质量得分的权重都取0.5,得到红葡萄的综合得分,再将综合评分按降序排列,计算相邻样品分差值,结果如下表: 葡萄样品号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
表格 2.4 葡萄样品综合得分及其分差值 综合得分 分数排序 对应样品号 74.1 89.1 9 67.0 88.6 23 80.6 84.6 20 48.9 82.5 22 59.4 80.6 3 76.5 77.5 12 42.7 76.5 6 66.3 76.0 18 89.1 74.1 1 54.4 67.7 13 67.5 67.5 11 77.5 67.0 2 67.7 66.3 8 46.3 66.0 26 42.9 59.4 21 51.6 59.4 5 53.9 54.4 10 76.0 53.9 17 49.6 52.4 27 84.6 51.6 16 11
样品分差值 0.5 4.0 2.1 1.8 3.2 1.0 0.5 2.0 6.3 0.3 0.5 0.7 0.3 6.6 0.1 5.0 0.5 1.5 0.8
21 22 23 24 25 26 27 59.4 82.5 88.6 49.1 47.4 66.0 52.4 49.6 49.1 48.9 47.4 46.3 42.9 42.7 19 24 4 25 14 15 7 2.0 0.5 0.1 1.5 1.1 3.5 0.2 对综合得分相邻样品分差值进行分析,当其值达到4.0及以上,认为两酿酒葡萄的品质差异较大,不能分在同一级,按照此方法,红葡萄可分成五级,一级到五级表示葡萄品质逐渐降低,具体情况如下表: 级数 一级 二级 三级 四级 五级 本模型中主要以红葡萄样品的相关数据进行分级,按照同样的方法将白葡萄的相关数据代入,求得白葡萄分级如下: 级数 一级 二级 三级 四级 五级 三.问题三模型的建立与求解 题目要求分析酿酒葡萄与葡萄酒理化指标之间的联系,通过对葡萄和葡萄酒分别的理化指标种类的统计,发现两者指标数目不同,所以分两部分进行分析。 首先,对于酿酒葡萄和葡萄酒各自的理化指标不能相互对应的部分,由于第二问中已求得的能够代表、反映葡萄各项指标的几个主成份,如果能够求得几个主成份分
12
表格 2.5 红葡萄分级结果 红葡萄样品号 9 23 1 3 6 12 18 20 22 2 8 11 13 26 5 21 4 7 10 15 16 17 19 24 25 27 表格 2.6 白葡萄分级结果 白葡萄样品号 27 1 4 10 15 18 22 23 28 5 6 12 13 17 20 2 3 14 16 21 24 25 7 8 9 11 19
别与葡萄酒的理化指标之间的联系,那么就能得到酿酒葡萄与葡萄酒理化指标之间的联系。因此我们通过选用二元定距变量的相关分析求得两者的相关系数来解释他们的联系。 其次,其次,对于酿酒葡萄与葡萄酒各自的理化指标能够对应的理化指标,通过作图分析各样本值,发现他们存在一定线性关系,可以通过Matlab拟合函数来拟合出他们的线性关系,最后对这些指标提出特别讨论。 1.酿酒葡萄主成份与葡萄酒理化指标相关性模型的建立与求解 a)模型的建立 相关分析用于描述两个变量之间关系的密切程度,反映的是当控制了其中一个变量时,另一个变量的变异程度。Pearson相关系数用来度量定距型变量间的线性关系。Pearson相关系数可以直接根据观察值计算,其公式恰好是矩阵的乘积形式。 Pearson相关系数的计算公式为: n r?(x?i?1ni?x)(yi?y) (12) ?x)(yi?y)22?(xi?1i 式中: n: 样本总数 xi:酿酒葡萄主成份值 yi:葡萄酒理化指标值 x:酿酒葡萄主成份均值 y:葡萄酒理化指标均值 对上式进行演变得到简单相关系数,即: r?式中: Sx:酿酒葡萄主成份的样本总和 Sy:葡萄酒理化指标的样本总和
13
1nn?i?1?xi?x??yi?y??????S?Sxy???? (13)