Data clustering：50years beyond k-means翻译(3)

2019-03-22 10:25

（c）数据需要标准化吗？（d）数据是否有异常值？（e）怎样定义对间相似度？（f）数据中有多少簇？（g）应该使用哪个聚类方法？（h）数据是否有聚类趋势？（i）发现的簇和划分是否有效？

以下我们会强调和举例说明其中一些挑战。 3.1. 数据表示法

数据表示是影响聚类算法性能最重要的因素之一。如果表示法（特征的选择）很好，那么簇很有可能是紧凑而孤立的，即使是一个像K-means这样的简单聚类算法也能找到它们。可惜的是，没有通用的表示法，表示法的选择必须在领域知识的指导下进行。图5a表示的是一个K-means不能将其划分为两个自然簇的数据集。通过K-means得到的划分由图5a中的虚线表示。然而当a中同样的数据点利用数据计算得来的RBF相似度矩阵的顶层二维特征向量使其表示成图b。它们分离的非常好使得用K-means来聚类这些数据非常简单（Ng et al.,2001）。

图5. 一个好的表示法的重要性。图（a）表示K-means无法找出“自然”簇的“两环”数据集；虚线表示K-means在参数K = 2情况下获得的线性簇分离边界；图（b）是使用RBF核心计算基于数据的图拉普拉斯算子的顶层两个特征向量的图（a）的一种新的表示法；K-means现在可以简单的找到两个簇。

3.2. 分组的目的

数据的表示和分组的目的密切联系。表示法必须和用户最终的目的相配合。（Pampalk et al.,2003）中用13个布尔特征表示16种动物的例子证明表示法是怎样影响分组的。动物通过关于它们的外貌和活动的13个布尔特征表示。当更多的特征是外貌特征而不是活动特征时，动物被分成哺乳动物和鸟类。另一方面，当更多的特征是是活动特征时，数据集被分成食肉动物和非食肉动物。图6中的两个划分同样有效，它们都揭示了数据有意义的结构。要获得想要的聚类结果就要靠用户仔细的选择表示法。

图6. 数据特征的不同权重导致数据的不同划分。16种动物由与外形和活动相关的13个布尔特征值表示。图（a）表示当基于外形的特征获得较大权重时的划分结果；图（b）表示当基于活动的特征获得较大权重时的划分结果。图（a）和（b）引用自Pampalk et al.(2003),被称之为“热图”，其中颜色代表一个位置的样本密度；颜色越暖，密度越大。

3.3. 簇的数目

自动确定簇的数目是数据聚类中最困难的问题之一。大部分自动确定簇数目的方法是将其转化为模型选择问题。通常，聚类算法在不同的K值下运行，然后根据之前定义的准则选择最佳的K值。Figueiredo和Jain（2002）使用最小信

息长度（MML）准则（Wallace和Boulton，1968；Wallace和Freeman，1987）结合高斯混合模型（GMM）来估计K。他们的方法从大量的簇开始，然后朝着减少MML准则方向逐步融合已有的簇。一个使用最小描述长度（MDL）原理的相关方法被用在（Hansen和Yu，2001）来选择簇的数量。其他用在选择簇数目的准则有贝叶斯信息准则（BIC）和Akiake信息准则（AIC）。Gap统计（Tibshirani et al.,2001）是另一种普遍使用用来确定簇数量的方法。它的核心假设是当将数据划分成最佳数量的簇时，最后的划分结果对随机摄动有最大的回弹力。狄利克雷方法（DP）（Ferguson，1973；Rasmussen，2000）引入了簇数量的无参数先验。往往通过概率模型可以导出关于簇数量的后验分布，从这个分布可以计算出最有可能的簇数量。尽管我们有这些目标准则，要找到使得簇最有意义的K还是不容易的。图7a展示了由6种高斯分布成分混合产生的合成数据集。真正的簇标展示在图7e中。而这个高斯分布的混合体满足于分别展示在图7b-d图中的划分，分别有2、5、6种成分，每一种看上去都是合理的。

图7. 簇数目K的自动选择。图（a）表示由6个高斯分布混合产生的输入数据；图（b）-（d）各自表示适用于2、5、6个组件的高斯混合模型（GMM）；图（e）表示数据的真实标签。

3.4. 簇的有效性

聚类算法倾向于找到数据中的簇而不考虑是否有簇的存在。图8a展示了一个没有自然聚集的数据集；这里所有的点均匀的产生在一个单位正方形中。然而，图8b展示了当K=3时，K-means算法在这些数据上运行时有3个簇被识别了出来！簇的有效性指的是以一种定量而且客观的方式（Jain和Dubes，1988）评价聚类分析结果的正式程序。事实上，在将聚类算法应用于数据之前，用户就应该确定是否有聚集的趋势（Smith和Jain，1984）。

图8. 聚类有效性。图（a）表示没有自然聚集情况的数据集；图（b）表示K-means当K = 3时的划分结果。

聚类有效性指标可以基于3个不同的准则来定义：内部的、外部的和相对的（Jain和Dubes，1988）。基于内部准则的指标仅仅使用数据本身评估聚类算法应用的结构（聚类结果）和数据的合适性。基于相对的指标比较多种结构（比如说由不同的算法产生的结果）然后决定哪个结构在某种程度上更好。基于外部准则的指标通过对照聚类结构和先验信息来衡量，先验信息也就是“真实”的簇标（通常叫做地面真值）。一般来说，聚类结果是用外部准则来评价的，那么如果我们知道真实的簇标，我们又为什么要费功夫去聚类呢？聚类稳定性的概念（Lange et al.2004）非常有吸引力，因为可以用来衡量内部稳定性。聚类稳定性由输入数据在不同二次抽样的情况下聚类结果的差异量来衡量。不同的差异衡量可以获得不同的稳定性衡量。在（Lange et al.,2004）中，通过把从二次抽样聚类得到的簇标作为“真实”簇标，从数据的二次抽样中训练获得有监督的分类器。在测试子集上分类器的性能表明聚类算法的稳定性。在基于模型的算法（比如K-means中的基于形心表示法和混合高斯模型）中，从不同的二次抽样中得到的

模型之间的距离可以用来衡量稳定性（von Luxburg 和David，2005）。Shamir和Tishby（2008）将稳定性定义为聚类算法的泛化能力（从PAC贝叶斯意义上考虑）。他们认为因为很多算法可以被证明是渐进稳定的，因此关于样本数量的渐进稳定度在衡量聚类稳定性上更有用。交叉检验在评估有监督学习方法时广泛使用。通过用一个不同的有效性衡量的概念替代预测准确性的概念，交叉检验被用在无监督学习上。比如，给定从一个文件的数据中获得的混合模型，其它文件中数据的分布可以作为算法性能的一种显示并被用来决定簇的数目K。

图9. 15个二维模式的几个聚类结果：图（a）表示15个模式；图（b）表示15个模式的最小生成树；图（c）表示FORGY的聚类结果；图（d）表示ISODATA的聚类结果；图（e）表示WISH的聚类结果；图（f）表示CLUSTER的聚类结果；图（g）表示完全连接层次聚类的结果；图（h）表示Jarvis-Patrick聚类算法的聚类结果。（图取自Dubes and Jain（1976））

3.5. 比较聚类算法

即使对于相同的数据不同的聚类算法往往会产生完全不同的划分。在图9中，7种不同的算法被用来聚类15个二维点，其中FORGY、ISODATA、CLUSTER和WISH是最小化平方误差准则的基于划分的算法（他们都是基本K-means算法的变体）。剩下的3种算法，MST（最小生成树）可以看做单连接的基于层次的算法，而JP是一种最近邻算法。注意到一个基于层次的算法可以通过确定一个相似度阈值来产生一个划分。很明显，没有哪个聚类结果是优于哪一个的，但是有些却和另一些相似。

共8页:

Data clustering：50years beyond k-means翻译(3).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档