2012全国数学建模二等奖优秀论文(4)

2019-02-15 17:06

在白葡萄酒中，通过数据可以看到氨基酸类、总酚、单宁、酒总黄酮、异鼠李素等属性起到了决定性的作用。另外，在白葡萄酒中总糖、还原糖、果糖和可溶性固体物决定了其色泽方面。

4.4能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量 4.4.1 建立模型

本体采用逐步回归建立模型，此模型引入变量越多则结果越准确，选择变量的一种方法是：先确定一初始子集，然后每次从子集外影响显著的变量中引入一个对y 影响最大的，再对原来子集中的变量进行检验，从变得不显著的变量中剔除一个影响最小的，直到不能引入和剔除为止。使用逐步回归有两点值得注意，一是要适当地选定引入变量的显著性水平int? 和剔除变量的显著性水平

out? ，显然， int? 越大，引入的变量越多； out?越大，剔除的变量越少。二是由于各个变量之间的相关性，一个新的变量引入后，会使原来认为显著的某个变量变得不显著，从而被剔除，所以在最初选择变量时应尽量选择相互独立性强的那些。

4.4.2模型求解：

设葡萄酒的质量受酿酒葡萄和葡萄酒的理化指标的影响，由题三知酿酒葡萄与葡萄酒的理化指标存在相关关系，根据第二组评价员对红葡萄酒的各属性的评分，求得27组酒样本中各属性的评分值，与葡萄酒的理化指标构成映射关系。数据如表：序x1 x2 x3 x4 x5 x6 x7 x8 y 号 1 0.923 0.567 0.613 0.661 0.468 0.362 0.294 0.518 0.098 2 0.774 0.814 0.875 0.743 0.815 0.249 0.618 0.688 0.2159 3 0.7145 0.771 0.848 0.72 0.7515 0.5285 0.28 0.71425 0.3034 4 0.3355 0.389 0.4375 0.35 0.407 0.2645 0.2585 0.3455 0.087 4.4.3使用逐步回归来确定一个线性模型。编写程序如下： Clc，clear X0=[

1 0.923 0.567 0.613 0.661 0.468 0.362 0.294 0.518 0.098 2 0.774 0.814 0.875 0.743 0.815 0.249 0.618 0.688 0.2159 3 0.7145 0.771 0.848 0.72 0.7515 0.5285 0.28 0.71425 0.3034

4 0.3355 0.389 0.4375 0.35 0.407 0.2645 0.2585 0.3455 0.087]; X=x0(:,2:n-1); Y=x0(:,n);

Stepwise(x,y); 得到如图所示的图形界面

逐步回归交互式画面

从表中可以看出x1,x2,x3,x4,x5,x6,x7,x8都不明显，并且它们都用红色标记，表明它们已被移去。即回归模型最终未能得出酿酒葡萄和葡萄酒的理化指标不能用来评价葡萄酒的质量。

六、模型评价及改进

5.1.1 t检验是：

两总体方差未知但相同，用以两平均数之间差异显著性的检验。因为t检验应主要用于小规模的数据，而此题中数据较多，可能对结果产生一定的影响。 5.1.2改良t检验法的建立：

已知正态分布样本的一组观测值x1,x2,?,xn，其中xm为可疑值，不包括可疑值xm的样本均值x?和样本偏差s?分别为：

n1x??xi （1） ?n?1i?1,i?m

s??n1?(xi?xj) （2） n?2i?1,j?m2我们已经证明了

n?1xm?x??~t(n?2) （3） ns?式（3）中t(n?2)是自由度为(n?2)的t的分布。当Tm?xm?x?s??ntp(n?2) （4）时， n?1xm为异常值，式（4）中Tm?xm?x?/s?为可疑值xm的统计量，tp(n?2)是自由

度为(n?2)的t分布的p分位数，p由下面两式决定：

p?1??/2 （双侧检验）（5） p?1?? （单侧检验）（6）

一般取??0.01，从而取p?0.995（双侧检验）或p?0.99（单侧检验）。把式（4）中的n/(n?1)tp(n?2)制成表格，就称为t检验法。

tp(n?2)与p、n有关，tp(n?2)不是常数，n越大，tp(n?2)越小；n??，tp(n?2)?tp(?)。令 tp(n?2)?tp(?)n??n??n?1?t(p,n?2) （7） n式（7）中?和?是待定常数。tp(n?2)的近似值记为t(p,n?2)是为后文写积分限时方便。将式（7）带入式（4），整理成新的不等式，并把不等式左边记为tm：

n??xm?x?tm???tp(?) （8）

?n??s式（8）中tm和tp(?)分别称为改良t检验法的统计量和临界值。式（8）和式（4）比较，改变了t检验法的统计量公式，使临界值变称常数，就改良了t检验法。

5.2.1 K-Means算法改进

K-Means算法是一种基于划分的聚类算法，经常用于数据挖掘和模式识别中，是一种无监督的学习算法，这个方法是由J.B.MacQueer提出的。该方法建立在误差平方和准则的基础上，它试图找到满足某一特定标准的划分。其过程是先择一些代表点作为初始聚类中心（通常选择所输入模式样本的前几个作为初始

聚类中心），再按最小距离准则使其余样本向各中心聚集，从而得到初始分类，入不合理就修改分类（重新计算各聚类的中心），反复迭代，直到获得合理的分类。

K-Means算法是聚类技术中一种基于划分的方法，具有简单、有效、快速的优点。然而这种算法对初值的依赖性，初值选取的不同往往导致聚类结果的不同。其次它是基于目标函数的聚类算法，一般都采用梯度法求解极值，由于梯度法的搜索方向总是沿着能量减小的方向进行，因此当初始聚类中心选择不当时，算法极易陷入局部极小点。 5.1.2 改进的K-Means算法

改进的K-Means算法的主要思想是，先利用最大最小距离算法确定初始的几个聚类中心，然后结合标准的K-Means算法，最后完成对模式集的分类。这种改进的K-Means算法，无论是在聚类精度、聚类速度、还是在稳定性方面都明显优于标准的K-Means算法。

以欧氏距离作为聚类的标准，算法的描述如下：

给定N个待分类的模式样本?x1,x2,?xN?,要求分类到K个聚类中。第一步，在待分类的模式?x1,x2,?xN?中任选一模式样本作为第一聚类中心

z1，选取z1?x1；

第二步，选离距离最远的样本作为第二聚类的中心，计算样本集中各样本的欧式距离；

xi?z1，i?1,2,?,N

如果：xj?z1?max ?xi?z1,i?1,2,?,N?,j?1,2,?,N 那么选取xj作为第二聚类的中心，z2?xj；

第三步，逐个计算各模式样本?x1,x2,?xN?与?z1,z2?之间的距离：

di1?xi?z1,i?1,2,?,N

di2?xi?z2,i?1,2,?,N

选出其中的最小距离：min(di1,di2),i?1,2,?,N

在所有模式样本与?z1,z2?距离的最小值中选取最大的距离作为第三类聚的中心z3；

如果min(dj1,dj2)?max ?min(di1,di2),i?1,2,?N?,j?1,2,?N 那么z3?xj；

第四步，假设已找到r(r?K)个聚类中心?zi,i?1,2,?,r?，现在确定r?1个聚类中心，即如果：

min(dj1,dj1,?djr)?max 则：zr?1?xj；

min(di1,di2,?,dir),i?1,2,?,N?,j?1,2,?,N

第五步，重复Step4，直到r?1?K为止；

第六步，已选取K个初始聚类中心z1(1),z2(1),?,zk(1)，括号内的序号为寻找聚类中心迭代运算的次序号；

第七步，逐个将需要分类到模式样本?x1,x2,?,xN?按最小欧式距离原则分配给K个聚类中心的某一个聚类，即如有：

x?zj(t)?minx?zj(t),i?1,2,?,K?,j?1,2,?,K

?则x?sj(t)

上式中的t为迭代运算次序号，sj表示第j个聚类，其聚类中心为zj；第八步，计算各个聚类中心的新向量值zj(t?1),j?1,2,?,K 求各聚类中包含样本的均值向量：zj(t?1)?1Njx?sj(t)?x,j?1,2,?,K

S上式中Nj为第j个聚类sj中所包含的样本个数。这一步是要分别计算K个聚类中的样本均值向量，以均值向量作为新的聚类中心可使聚类准则函数Jj为最小。Jj?x?sj(t)?x?zj(t?1),j?1,2,?,K

2第九步，如有：zj(t?1)?zj(t),j?1,2,?,K，就回到第七步，将模式样本逐个重新分类、重新迭代计算。如果有：zj?(t?1)?zj(t),j?1,2,?,K,则算法收敛结束。

5.3.1多元性回归模型与一元线性回归模型一样，在得到参数的最小二乘法的估计值之后，也需要进行必要的检验与评价，以决定模型是否可以应用。 1、拟合程度的测定。

与一元线性回归中可决系数r2相对应，多元线性回归中也有多重可决系数r2，它是在因变量的总变化中，由回归方程解释的变动(回归平方和)所占的比重，2

R越大，回归方各对样本数据点拟合的程度越强，所有自变量与因变量的关系越密切。

共8页:

2012全国数学建模二等奖优秀论文(4).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档