近十几年来,很多学者对迁移学习展开了广泛的研究,而且很多集中在算法研究上,即采用不同的技术对迁移学习算法展开研究。
基于特征选择的迁移学习方法是识别出源领域与目标领域中共有的特征表示,然后利用这些特征进行知识迁移。Jiang等人[119]认为与样本类别高度相关的那些特征应该在训练得到的模型中被赋予更高的权重,因此他们在领域适应问题中提出了一种两阶段的特征选择框架。第一阶段首先选出所有领域(包括源领域和目标领域)共有的特征来训练一个通用的分类器;然后从目标领域无标签样本中选择特有特征来对通用分类器进行精化从而得到适合于目标领域数据的分类器。Dai等人[120]提出了一种基于联合聚类(Co-clustering)的预测领域外文档的分类方法CoCC,该方法通过对类别和特征进行同步聚类,实现知识与类别标签的迁移。CoCC算法的关键思想是识别出领域内(也称为目标领域)与领域外(也称为源领域)数据共有的部分,即共有的词特征。然后类别信息以及知识通过这些共有的词特征从源领域传到目标领域。Fang等人[121]利用迁移学习对跨网络中的协作分类进行研究,试图从源网络迁移共同的隐性结构特征到目标网络。该算法通过构造源网络和目标网络的标签传播矩阵来发现这些隐性特征。
基于特征映射的迁移学习方法是把各个领域的数据从原始高维特征空间映射到低维特征空间,在该低维空间下,源领域数据与目标领域数据拥有相同的分布。这样就可以利用低维空间表示的有标签的源领域样本数据训练分类器,对目标测试数据进行预测。
Pan等人[122]提出了一种新的维度降低迁移学习方法,他通过最小化源领域数据与目标领域数据在隐性语义空间上的最大均值偏差(Maximun Mean Discrepancy),从而求解得到降维后的特征空间。在该隐性空间上,不同的领域具有相同或者非常接近的数据分布,因此就可以直接利用监督学习算法训练模型对目标领域数据进行预测。Blitzer等人
[123]
提出了一种结构对应学习算法(Structural
28
Corresponding Learning, SCL),该算法把领域特有的特征映射到所有领域共享的“轴”特征,然后就在这个“轴”特征下进行训练学习。
Yeh等人[124]提出一种新的领域适应性方法解决跨领域模式识别问题。他们使用典型相关分析方法(CCA)得到相关子空间作为所有领域数据的联合表示,并提出核典型相关分析方法(KCCA)处理非线性相关子空间的情况。特别地,他们提出一种新的带有相关性正则化的支持向量机方法,可以在分类器设计中加入领域适应性能力从而进行领域适应性模式分类。
在迁移学习中,有标签的源领域数据的分布与无标签的目标领域数据的分布一般是不同的,因此那些有标签的样本数据并不一定是全部有用的。如何侧重选择那些对目标领域分类有利的训练样本?Jiang等人[125]提出了一种实例权重框架来解决自然语言处理任务下的领域适应问题。他们首先从分布的角度分析了产生领域适应问题的原因,主要有两方面:实例的不同分布以及分类函数的不同分布。因此他们提出了一个最小化分布差异性的风险函数,来解决领域适应性问题。Dai等人[126]扩展Boosting学习算法到迁移学习中,提出了TrAdaBoost算法。在每次迭代中改变样本被采样的权重,即在迭代中源领域中的样本权重被减弱,而有利于模型训练的目标领域中的样本权重被加强。他们还用PAC理论分析证明了该算法的有效性。
根据是否从多个源领域数据学习,迁移学习算法又可以分为单个源领域以及多个源领域的迁移学习。Gao等人[127]解决了不同模型的一致性问题。这两个多源领域学习的工作很好地处理了多个模型的集成问题。为了更加深入地挖掘、开发各个源领域数据的内部结构或者数据分布,Zhuang等人[128]提出了一致性正则化框架,在这个框架下,局部的子分类器不仅考虑了在源领域上可利用的局部数据,而且考虑了这些由源领域知识得到的子分类器在目标领域上的预测一致性。最近,Zhuang等人[129][130]提出基于深度学习自动编码机的迁移学习算
29
法,迁移学习效果得到了进一步提升。
迁移学习已在文本分类[128]、文本聚类[131]、情感分类[123]、图像分类[132]、协同过滤[133]等方面进行了应用研究。香港科技大学Qiang Yang实验室还做了一系列的室内定位的迁移学习方面的工作。
迁移学习作为一个新兴的研究领域,还很年轻,主要还是集中在算法研究方面,基础理论研究还很不成熟,因此值得我们进一步的研究。迁移学习最早来源于教育心理学,借用美国心理学家贾德(Judd, C.H.) 提出的“类化说”学习迁移理论来讨论下目前机器学习领域迁移学习研究存在的几个挑战性问题。首先,贾德认为在先期学习A中获得的东西,之所以能迁移到后期学习B中,是因为在学习A时获得了一般原理,这种原理可以部分或全部运用于A、B之中。根据这一理论,两个学习活动之间存在的共同要素,是产生迁移的必要前提。这也就是说,想从源领域中学习知识并运用到目标领域中,必须保证源领域与目标领域有共同的知识,那么如何度量这两个领域的相似性与共同性,是问题之一。第二,贾德的研究表明,知识的迁移是存在的,只要一个人对他的经验、知识进行了概括,那么从一种情境到另一种情境的迁移是可能的。知识概括化的水平越高,迁移的范围和可能性越大。把该原则运用到课堂上,同样的教材采用不同的教学方法,产生的迁移效果是不一样的,可能产生积极迁移也可能产生相反的作用。即同样的教材内容,由于教学方法不同,而使教学效果大为悬殊,迁移的效应也大不相同。所以针对不同的学习问题,研究有效的迁移学习算法也是另一个重要问题。第三,根据贾德的泛化理论,重要的是在讲授教材时要鼓励学生对核心的基本概念进行抽象或概括。抽象与概括的学习方法是最重要的方法,在学习时对知识进行思维加工,区别本质的和非本质的属性,偶然的和必然的联系,舍弃那些偶然的、非本质的元素,牢牢把握那些必然的本质的元素。这种学习方法能使学生的认识从低级的感性阶段上升到高级的理性阶段,从
30
而实现更广泛更成功的正向迁移。也就是说在迁移学习的过程中,应该避免把非本质的、偶然的知识,当成本质的(领域共享的)、必然的知识,实现正迁移。所以,如何实现正迁移,避免负迁移也是迁移学习的一个重要研究问题。针对以上讨论分析,未来的迁移学习研究可以在以下方面进行努力。
第一,针对领域相似性、共同性的度量,研究准确的度量方法;第二,在算法研究方面,对于不同的应用,迁移学习算法需求不一样。因此针对各种应用的迁移学习算法有待进一步研究;第三,关于迁移学习算法有效性的理论研究还很缺乏,研究可迁移学习条件,获取实现正迁移的本质属性,避免负迁移;最后,在大数据环境下,研究高效的迁移学习算法尤为重要。目前的研究主要还是集中在研究领域,数据量小而且测试数据非常标准,应把研究的算法瞄准实际应用数据,以适应目前大数据挖掘研究浪潮。尽管迁移学习研究还存在着各种各样的挑战,但是随着越来越多的研究人员投入到该项研究中,一定会促进迁移学习研究的蓬勃发展。
3.2 深度学习
自从Hinton教授2006年在著名期刊Science上发表深度学习[134]
一文以来,深度学习已受到了学术界和工业界研究人员的广泛关注。鉴于深度学习对大数据处理的有效性,斯坦福大学、多伦多大学、清华大学等许多著名大学都有学者在从事深度学习的理论研究,而谷歌、微软、百度等知名公司也投入了大量的资源研发深度学习应用技术。在数据和计算资源足够的情况下,深度学习在许多领域中体现出占据支配地位的性能表现,如语音识别[135][136]、视觉对象识别
[137][138][139]
、自然语言处理[140][141][142]等领域。
传统的方法是通过大量的工程技术和专业领域知识手工设计特征提取器,因此在处理未加工数据时表现出的能力有限;另外,多数的分类等学习模型都是浅层结构,制约了对复杂分类问题的泛化能
31
力。
而深度学习作为一种特征学习方法,把原始数据通过一系列非线性变换得到更高层次,更加抽象的表达,这些都不是通过人工设计而是使用一种通用的学习过程从数据中学习获得。深度学习主要通过建立类似于人脑的分层模型结构,对输入数据逐级提取从底层到高层的特征,从而能很好地建立从底层信号到高层语义的映射关系。相比传统的方法,具有多个处理层的深度学习模型能够学习多层次抽象的数据表示,也受益于计算能力和数据量的增加,从而能够发现大数据中的复杂结构,从而在语音识别,图像分类等领域取得了最好结果,同样也成功应用于许多其他领域,包括预测DNA突变对基因表达和疾病的影响[143][144],预测药物分子活性[145],重建大脑回路[146]等。
图3-1 典型卷积网络结构
其中,深度卷积神经网络[138](如图3-1)在处理图像,视频,语音和音频方面表现出优异的性能,这是一种前馈式神经网络,更易于训练,并且比全连接的神经网络泛化性能更优。卷积神经网络以其局部连接,权值共享,池化和多网络层四个特征非常适用于处理多维数组数据的,最典型的是具有三个颜色通道的彩色图像。自二十世纪九十年代以来,卷积神经网络被成功应用于检测,分割,识别以及语音,图像的各个领域。比如最早是用时延神经网络[147]进行语音识别以及文档阅读[148],其是由一个卷积神经网络和一个关于语言约束的概率
32