AffinityPropagation算法介绍(2)

1970-01-01 08:00

图 7.?取0.5时的迭代示意图

从上面两个图对比中我们可以发现,当?值越小时,迭代次数会减少,但是迭代过程中net Similarity值波动会很大,当要聚类的数据点比较大时,这样难于收敛。当?值较大时,迭代次数会增加,但是总的net Similarity比较平稳。

根据式(4)和式(5),我们也可以看到,每一次迭代的r(i,k)和a(i,k)受到?的影响。当

?取较小的值时,rnew(i,k)和anew(i,k)相比上一次迭代的rold(i,k)和aold(i,k)会发生较大

的变化,这也是为什么net Similarity值摆动比较大的原因;当?取较大值时,rnew(i,k)和

anew(i,k)和上一次迭代的rold(i,k)和aold(i,k)比较接近,这也是导致迭代次数比较多的原

因。

正是因为如此,有人提出了自适应仿射传播聚类(在文献2中可以看到),文中主要提出了如何根据数据集自动生成preference值和?值的方法。 4. k-means算法与AP算法比较

例3:下面,我们随机在二维空间中生成50个数据点,分别用上面讲述的两种聚类算法进行聚类计算。

我们先进行AP算法聚类,将生成的聚类数量用于k-means算法中,将结果示意图进行比较,具体结果如下:

图 8.AP算法迭代过程

图9.AP算法最终计算结果

图10. k-means算法初始聚类中心示意图

图11.k-means算法最终聚类结果

5.总结与展望

k-means算法对于离散和噪声数据比较敏感,对于初始聚类中心的选择很关键,因为初始聚类中心选择的好坏直接影响到聚类结果,而且这个算法要求进行聚类时输入聚类数目,这也可以说是对聚类算法的一种限制。不过,这种算法运行速度相对于AP算法要快一些,因此,对于那些小而且数据比较密集的数据集来说,这种聚类算法还是比较好的。

AP算法对于p值的选取比较关键,这个值的大小,直接影响都最后的聚类数量。值越

大,生成的聚类数越多,反之如此。而且,那个阻尼系数?对迭代也是很关键的。在文献[2]中有人提及,此算法可能会出现数据震荡现象,即迭代过程中产生的聚类数不断发生变化不能收敛。增大?可消除震荡现象。但根据式[4]和式[5]来看,一味的增大?会使r和a的更新变的缓慢,增加了计算时间。因此,如何选取一个合适?的来进行计算也成了一个提升算法运行速度的重要因素。


AffinityPropagation算法介绍(2).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:自我人格分析

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: