AffinityPropagation算法介绍(2)

1970-01-01 08:00

图 7.?取0.5时的迭代示意图

从上面两个图对比中我们可以发现，当?值越小时，迭代次数会减少，但是迭代过程中net Similarity值波动会很大，当要聚类的数据点比较大时，这样难于收敛。当?值较大时，迭代次数会增加，但是总的net Similarity比较平稳。

根据式（4）和式（5），我们也可以看到，每一次迭代的r(i,k)和a(i,k)受到?的影响。当

?取较小的值时，rnew(i,k)和anew(i,k)相比上一次迭代的rold(i,k)和aold(i,k)会发生较大

的变化，这也是为什么net Similarity值摆动比较大的原因;当?取较大值时，rnew(i,k)和

anew(i,k)和上一次迭代的rold(i,k)和aold(i,k)比较接近，这也是导致迭代次数比较多的原

因。

正是因为如此，有人提出了自适应仿射传播聚类（在文献2中可以看到），文中主要提出了如何根据数据集自动生成preference值和?值的方法。 4. k-means算法与AP算法比较

例3：下面，我们随机在二维空间中生成50个数据点，分别用上面讲述的两种聚类算法进行聚类计算。

我们先进行AP算法聚类，将生成的聚类数量用于k-means算法中，将结果示意图进行比较，具体结果如下：

图 8.AP算法迭代过程

图9.AP算法最终计算结果

图10. k-means算法初始聚类中心示意图

图11.k-means算法最终聚类结果

5.总结与展望

k-means算法对于离散和噪声数据比较敏感，对于初始聚类中心的选择很关键，因为初始聚类中心选择的好坏直接影响到聚类结果，而且这个算法要求进行聚类时输入聚类数目，这也可以说是对聚类算法的一种限制。不过，这种算法运行速度相对于AP算法要快一些，因此，对于那些小而且数据比较密集的数据集来说，这种聚类算法还是比较好的。

AP算法对于p值的选取比较关键，这个值的大小，直接影响都最后的聚类数量。值越

大，生成的聚类数越多，反之如此。而且，那个阻尼系数?对迭代也是很关键的。在文献[2]中有人提及，此算法可能会出现数据震荡现象，即迭代过程中产生的聚类数不断发生变化不能收敛。增大?可消除震荡现象。但根据式[4]和式[5]来看，一味的增大?会使r和a的更新变的缓慢，增加了计算时间。因此，如何选取一个合适?的来进行计算也成了一个提升算法运行速度的重要因素。

共2页:

AffinityPropagation算法介绍(2).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档