数学建模方法大汇总(3)

2019-03-11 15:20

录的个数无关的,它只与把数据空间分为多少个单元有关。代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法; 5、基于模型的方法(model-based methods):基于模型的方法给每一个聚类假定一个模型,然后去寻找能个很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定就是:目标数据集是由一系列的概率分布所决定的。通常有两种尝试方向:统计的方案和神经网络的方案。 具体的有:

1、K-MEANS算法

k-means 算法接受输入量 k ;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。

k-means 算法的工作过程说明如下:首先从n个数据对象任意选择 k 个对象作为初始聚类中心;而对于所剩下其它对象,则根据它们与这些聚类中心的相似度(距离),分别将它们分配给与其最相似的(聚类中心所代表的)聚类;然后再计算每个所获新聚类的聚类中心(该聚类中所有对象的均值);不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数. k个聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。 2、K-MEDOIDS算法

K-MEANS有其缺点:产生类的大小相差不会很大,对于脏数据很敏感。 改进的算法:k—medoids 方法。这儿选取一个对象叫做mediod来代替上面的中心的作用,这样的一个medoid就标识了这个类。步骤:

(1)、任意选取K个对象作为medoids(O1,O2,?Oi?Ok)。 以下是循环的:

(2)、将余下的对象分到各个类中去(根据与medoid最相近的原则); (3)、对于每个类(Oi)中,顺序选取一个Or,计算用Or代替Oi后的消耗—E(Or)。选择E最小的那个Or来代替Oi。这样K个medoids就改变了,下面就再转到2。

(4)、这样循环直到K个medoids固定下来。

这种算法对于脏数据和异常数据不敏感,但计算量显然要比K均值要大,一般只适合小数据量。 3、Clara算法

上面提到K-medoids算法不适合于大数据量的计算。现在介绍Clara算法,这是一种基于采用的方法,它能够处理大量的数据。

Clara算法的思想就是用实际数据的抽样来代替整个数据,然后再在这些抽样的数据上利用K-medoids算法得到最佳的medoids。Clara算法从实际数据中抽取多个采样,在每个采样上都用K-medoids算法得到相应的(O1,O2?Oi?Ok),然后在这当中选取E最小的一个作为最终的结果。 4、Clarans算法

Clara算法的效率取决于采样的大小,一般不太可能得到最佳的结果。

在Clara算法的基础上,又提出了Clarans的算法,与Clara算法不同的是:在Clara算法寻找最佳的medoids的过程中,采样都是不变的。而Clarans

算法在每一次循环的过程中所采用的采样都是不一样的。与上次课所讲的寻找最佳medoids的过程不同的是,必须人为地来限定循环的次数。

模糊聚类分析方法

聚类分析方法形成思路 变量的数据预处理

分类前,对原始数据进行预处理,使其所有变量尺度均匀化。方法有以下几种: 变量的标准化

设有n个样品,m个特征变量,设第i个样品,第j个变量的观测值为xij(i?1,2,?,n;j?1,2,?,m),由此可构成一个n?m阶矩阵为

?x11?x21??????xn1x12x22?xn2????x1m??x2m? (1) ???xnm?X?(xij)n?m将式(1)中每个变量xij根据以下公式变换,称为标准化。 对每个变量的标准化计算公式为

??xijxij?xjSjSj?[1nij(i?1,2,?,n)(j?1,2,?,m)(x?ni?1 (2)

式中,xj?1nijx?ni?1?xj)]21/2

标准化后变量的平均值为0,标准离差为1。 变量的正规化

对每个变量施行以下变换,称为正规化。

??xijxij?xj(min)xj(max)?xj(min)(i?1,2,?,n)(j?1,2,?,m) (3)

??1。式中,xj(max)和xj(min)分别为第j个变量的最大值和最小值。显然,0?xij

变量的规格化

对每个变量施行以下变换,称为规格化。

??xijxijxj(max)(i?1,2,?,n)(j?1,2,?,m) (4)

??1。 式中,,xj(max)为第j个变量的最大值。显然,0?xij注:数据的预处理以不丢失原有信息为前提。三种预处理方法的选择应根据现有

数据的特点来考虑。

分类统计量的确定及其聚类方法的选择

分类统计量的确定

一般是把相似程度大的并成一类,把相似程度小的分为不同的类,因此要定量地表示样品间的相似程度。设论域U?{x1,x2,?,xn},xi?{xi1,xi2,?,xim}(i?1,2,?,n),即数据矩阵为

A??xij?n?m,如果xi与xj的相似程度为rij?R(xi,xj)(i,j?1,2,?,n),则称之为相似系

~数,确定相似系数rij有多种不同的方法。常用的方法如下:

(1) 数量积法

xi?{xi1,xi2,?,xim}?U,令

?m?M?max??xik?xjk?i?j?k?1?,则取

i?j?1,rij?1?m?,显然rij?[0,1]。若出现有某些rij?0,可令rij?,rij??1x?x,i?j2jk?M?ikk?1?则有rij??[0,1]。也可以用平移-极差变换将其压缩到[0,1]上,即可以得到模糊相

似矩阵R??rij?n?m。

(2) 夹角余弦法(相似系数统计量): 令

m?xrij?k?1m2ikk?1ikxjkm2jk(i,j?1,2,?,n)

?x??xk?1则R??rij?n?n。

(3) 相关系数法(相关系数统计量): 令

m??xrij?k?1ik?xi??xjk?xj???xk?1mik?xi????x2k?1m(i,j?1,2,?,n)

jk?xj?2其中xi?x,x?mikk?11mj?x,则R??rij?。 ?n?nmjkk?11m注意:xi?{xi1,xi2,?,xim}中的样本xik属于同一个样本空间Xi(k?1,2,?,m)。 (4) 指数相似系数法: 令

2??3(xik?xjk)??rij??exp??? 2mk?1sk???4?1m其中sk?1?x?ni?1nik?xk?2,xk?1nikx?ni?1(k?1,2,?,m)。则R?rij??n?n。

注意:xi?{xi1,xi2,?,xim}中的样本xik属于不同的样本空间Xk,即

xik?Xk(k?1,2,?,m)。

(5) 最大最小值法: 令

??xrij?k?1mik?xjk?xjk???xk?1mik?(xij?0;i,j?1,2,?,n)

则R??rij?n?n。

(6) 算术平均值法: 令

??xrij?k?1mik?xjk?1?x?2k?1mik?xjk?(xij?0;i,j?1,2,?,n)

则R??rij?n?n。

(7) 几何平均值法:令

??xrij?k?1mmik?xjk?(xij?0;i,j?1,2,?,n)

?则R??rij?n?n。

k?1xik?xjk(8) 绝对值倒数法:令

i?j?1,??1rij???m??M??xik?xjk?,i?j???k?1

其中M为使得所有rij?[0,1](i,j?1,2,?,n)的确定常数,则R??rij?n?n。 (9) 绝对值指数法:令

?mrij?exp???xik?xjk?k?1??(i,j?1,2,?,n) ?则R??rij?n?n。

(10) 海明距离法(距离系数统计量。如果变量的量纲不同,原始数据变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计算距离):令

?rij?1?H?d(xi,xj)?m(i,j?1,2,?,n) ??d(xi,xj)??xik?xjkk?1?其中H为使得所有rij?[0,1](i,j?1,2,?,n)的确定常数。则R?rij??n?n。

(11) 欧氏距离法(最常用):令

?rij?1?E?d(xi,xj)?m??d(xi,xj)???xik?xjkk?1?(i,j?1,2,?,n)

?2其中E为使得所有rij?[0,1](i,j?1,2,?,n)的确定常数。则R??rij?n?n。 (12) 契比雪夫距离法:令

?rij?1?Q?d(xi,xj)?m??d(xi,xj)??xik?xjkk?1?(i,j?1,2,?,n)

其中Q为使得所有rij?[0,1](i,j?1,2,?,n)的确定常数。则R??rij?n?n。

(13) 主观评分法:设有N个专家组成专家组{p1,p2,?,pN},让每一位专家对所研究的对象xi与xj相似程度给出评价,并对自己的自信度作出评估。如果第k位专家pk关于对象xi与xj的相似度评价为rij(k),对自己的自信度评估为

aij(k)(i,j?1,2,?,n),则相关系数定义为

??arij?k?1NijN(k)?rij(k)?(i,j?1,2,?,n)

ij?a则R??rij?n?n。

k?1(k)综上所述,以上给出了实际中能够使用的一些方法,具体地选择要根据具体问题的性质和使用的方便来确定。

在实际工作中,当需要研究样品与样品之间关系时,一般用距离系数统计量或者相似系数统计量作为分类计算依据,这种方法又称为Q型聚类法;当需要研究变量与变量之间的关系时,常用相关系数统计量作为分类计算依据,这种方法又称R型聚类法。

选择适当的聚类方法

聚合法

开始把每个样品看成自成一类,计算各类之间的相似程度的统计量,把最相似的两类合并为一类,再计算各类相似程度统计量,把最相似的两类合并,照此继续下去,一直到所有样品都聚合成一类为止,最后人为确定合适的分类数,得到分类结果。 分解法

它的聚类过程恰好和聚合法相反,开始把全体样品看成一类,然后分成二类,??,一直到每个样品为一类或分到不能再分时为止,通常要设计一个分类函数(目标函数)来控制整个分类过程。 调优法

开始人为将样品作初始分类,在一定准则下判断这个分类是否最优,如果不是最优,则对分类进行修改,再判断修改后的分类是否最优,若仍不是最优,再作修改,不断重复上述步骤,一直到分类方案最优为止。 *动态聚类法

步骤:

1、按照一定的原则选择一批凝聚点(聚核),

2、让样品向最近的凝聚点凝聚,这样就由点凝聚成类,得到初始分类。 3、初始分类不一定合理,可按最近距离原则进行修改,直到分类合理得到最终的分类为止。


数学建模方法大汇总(3).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:数控车床_职业技能鉴定国家题库

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: