有非负特征的问题[58]。Zhang和Huan利用协同正则化,保证学习器在不同视图的无标号样本上彼此一致[59]。但是,该算法要求所有的任务都彼此相似,这显然是不合理的。Jin等人进一步提出了一个共享结构学习框架,打破了上述限制,其从多个相关任务的共同视图上学习共享预测结构,并利用不同视图上的一致性提高性能[60]。多态学习研究不同模态样本之间的学习问题,比如图像和语句之间的关联就可刻画为多态匹配问题。Hodosh等人利用核典型相关分析算法挖掘图像和语句之间的共享特征空间,但是基于浅层表示的图像和语句通常具有高度的非线性性,导致了模态间的关联很难被挖掘[61]。Ma等人进一步使用卷积神经网络刻画图像、将语句中的词组成不同的语义片段,学习图像和语义片段之间的匹配关系和相互作用,取得了很好的性能[62]。
伴随着理论研究的发展,多视图学习亦被广泛应用于许多产业领域。例如,在垃圾网页检测中,多视图学习可综合利用基于内容作弊和基于链接作弊的多网页特征,对垃圾网页进行更有效地检测;在微博话题检测中,多视图学习可整合微博中的文本语义关系和社会化关系,克服传统的基于纯文本话题检测方法的不足;在网络入侵检测中,多视图学习可针对多种不同的入侵类型,如拒绝服务、网络嗅探、远程非法登入、非法权限提升等,在特定的属性空间中进行检测,以获得更好的检测效果;在跨语言信息检索中,对同一个自然语言描述对象,多语言的信息表示是该对象赋予不同语言符号系统的字符串表示,可自然地表示为该对象的多个视图,这些视图在本质上是语义等价的,多视图学习可充分利用这些视图的信息,取得较好的检索性能。
虽然目前多视图学习在理论分析和应用研究上取得了一定的进展,但其仍然存在值得进一步研究的问题:第一,视图的构造、分析和评价。多个不同的视图是多视图学习的根本,其性质不可避免地将对多视图学习的性能产生关键影响。如何构造多个视图数据、如何评
13
价多个视图数据的有效性等一系列问题,都是多视图学习中的重要研究内容。第二,多视图学习框架的建立。协同训练、多核学习和子空间学习提供了三种不同的多视图组合方式,但目前对于三者的研究仍是相对独立的,如何建立一个融合不同方法优点的多视图学习框架亦值得深入研究。第三,多视图研究领域的扩展。立足于实际问题,异质多视图学习、多态学习等新兴研究领域的出现为多视图学习提供了更加广阔的发展前景,而目前对于这些领域的研究仍处于起步阶段,对其的深入探索必将为多视图学习提供更多的发展机遇。
2.4 集成学习
与单一的学习模型相比,集成学习模型的优势在于能够把多个单一学习模型有机地结合起来,获得一个统一的集成学习模型,从而获得更准确、稳定和强壮的结果。近年来,各种各样的集成学习模型相继被提出,并应用于各种类型的数据集中[63][64]。
集成学习能够把多个单一学习模型所获得的多个预测结果进行有机地组合,从而获得更加准确、稳定和强壮的最终结果。集成学习的原理来源于PAC学习模型(Probably Approximately Correct learning)。Kearns和Valiant最早探讨了弱学习算法与强学习算法的等价性问题[65],即提出了是否可以将弱学习算法提升成强学习算法的问题。如果两者等价,那么在学习概念时,只要找到一个比随机猜测略好的弱学习算法,就可以将其提升为强学习算法,而不必直接去找通常情况下很难获得的强学习算法。近年来,研究人员在集成学习方面,特别是分类集成方面进行了大量的探索和创新。大部分的集成学习模型都可以归为三大类:分类集成学习模型、半监督集成学习模型和非监督集成学习模型。监督集成学习模型,又称为分类集成学习模型(classifier ensemble),包括一系列常见的分类技术,如:bagging[66]、boosting[67]、随机森林[68]、随机子空间[69]、旋转森林[70]、基于随机线性预测器的集成技术[71]、神经网络集成技术[72]等等。一方面,Adaboost
14
算法是学习过程集成的典型例子。它在学习过程中不断地调整训练样本的权重,从而把多个弱分类器有机地结合成一个强分类器。另一方面,bagging技术是学习结果集成的典型例子。它通过合适的投票机制把多个分类器的学习结果综合为一个最具代表性的结果。如:图2-4显示了学习结果集成的基本框架图。当给定一个训练集,集成学习首先通过一系列的数据映射操作,如:采样、随机子空间、扰动、投影等,生成多个不同的新训练集。新训练集之间,以及新训练集与原训练集尽可能不同。这样,我们才能够探索样本在相对稳定的类结构下的不同的表现形式。与此同时,要确保新训练集仍然保持原有的相对稳定的类结构。然后,集成学习采用新训练集训练一种或多种基本分类器,并通过选择合适的投票机制,形成组合分类器。最后,运用组合分类器对测试集中的样本进行预测,获取这些样本的标记。
图2-4 Bagging集成基本框架图
图2-5显示了Adaboost集成基本框架图。当给定一个原始训练集,Adaboost算法首先赋予训练集的每个样本相等的权重系数,然后用这
图2-5 Adaboost集成基本框架图
15
些样本训练一个弱分类器,并对原始训练集的样本进行预测,接着更新训练集样本的权值。标记预测错误的样本,权重减少;标记预测正确的样本,权重增加。最后,Adaboost获得权值更新的训练集。算法不断地重复之前的步骤,不断生成新训练集,不断训练新的分类器,直到获得一组分类器。这组带权重系数的分类器将用于预测测试集中样本的标记,并获得最终结果。
图2-6显示了随机子空间集成基本框架图。当给定一个原始训练集,该算法首先对属性维进行随机采样,生成一组随机子空间;然后在子空间中生成相应的训练集,并用不同子空间下的一组新训练集来训练出一组分类器。在测试阶段,首先把测试集中的样本投影到相应的子空间中,然后用子空间的分类器预测样本标记,最后通过合适的投票机制把所有的预测结果进行综合,从而获得最终结果。
半监督集成学习模型包括多视图学习模型、共性最大化学习模型等。非监督集成学习模型,又称为聚类集成(cluster ensemble)或一致性聚类(consensus clustering),最早由Strehl所提出。经过多年的研究,大量的聚类集成学习模型被提出来,如:基于图论的聚类集成算法、基于多次谱聚类的聚类集成算法、混合模糊聚类集成算法等。
图2-6 随机子空间集成基本框架图
16
然而集成学习模型的性能往往受到外在环境(如:样本空间和属性空间)和内在环境(基本分类器的参数和基本分类器的权重)的影响。但是传统的集成学习模型没有考虑到这些因素的综合影响,没有考虑到如何寻找最优的集成学习模型。而多角度自适应集成学习模型不但能够考虑到集成模型的内在环境,而且能够把握集成模型和外在环境之间的关系[73]。自适应集成模型之间会根据解决问题的需要进行一定的信息交互,不断地进行调整,直到达到最佳的状态。多角度自适应集成学习模型将在传统集成学习模型的基础上,从多个不同角度加入自适应学习过程,从而获取最优的集成学习模型。
国际上与集成学习模型的相关研究工作还很多,以上只是列举了部分经典的研究工作的情况。国内许多著名的专家学者也在集成学习模型上做了很多的研究,如:周志华教授的团队等,在此不一一列出。如需了解更多信息,可参考周志华教授关于集成学习的新书[74]。
集成学习未来的发展趋势主要有两大块:集成学习模型的优化和集成学习模型的并行化。在大数据时代,数据来源各有不同,大数据的海量多元异构特性已经成为大数据智能处理的瓶颈。如何对多元数据进行融合和挖掘成为大数据智能处理函需解决的问题。集成学习非常适合用于多元数据融合和挖掘,在集成学习里,集成器由一组单一的学习模型所构成,每一个学习模型都可以对应每一个来源的数据,并自动地提取该数据源所蕴含有价值规律。因此,集成学习能够提供一个统一的框架用于分析异构性极强的多元数据,实现多元数据的融合、建模和挖掘,并从中寻找出有价值的数据语义,为政府的决策提供支持。然而,由于大数据的海量特性,使得集成学习模型的并行化处理技术变得日益重要。利用高性能服务器集群实现集成学习模型的并行化处理将成为集成学习未来发展趋势之一。
集成学习作为一种提升学习系统泛化性能的常用技术,在诸多领域有着广阔的应用前景。在美国NETFLIX电影推荐比赛中,基于集
17