中国机器学习白皮书
中国人工智能学会
二○一五年十一月
《中国人工智能系列白皮书》编委会
主 任:李德毅 执行主任:王国胤
副 主 任:杨放春 谭铁牛 黄河燕 焦李成 马少平 刘 宏 蒋昌俊 任福继 杨 强
委 员:陈 杰 董振江 杜军平 桂卫华 韩力群 何 清 黄心汉 贾英民 李 斌 刘 民 刘成林 刘增良 鲁华祥 马华东 马世龙 苗夺谦 朴松昊 乔俊飞 任友群 孙富春 孙长银 王 轩 王飞跃 王捍贫 王万森 王卫宁 王小捷 王亚杰 王志良 吴朝晖 吴晓蓓 夏桂华 严新平 杨春燕 余 凯 余有成 张学工 赵春江 周志华 祝烈煌 庄越挺
《中国机器学习白皮书》编写组
组长:陈松灿 高 阳
组员:黄圣君 李武军 薛 晖 俞 扬 余志文
詹德川 詹志辉 张利军 张敏灵 庄福振
1
目 录
第1章 引言 .................................................................. 1 第2章 主流机器学习技术进展 .................................. 3
2.1 度量学习 ..................................................................................... 3 2.2 多核学习 ..................................................................................... 7 2.3 多视图学习 ............................................................................... 10 2.4 集成学习 ................................................................................... 14 2.5 主动学习 ................................................................................... 18 2.6 强化学习 ................................................................................... 22
第3章 新兴机器学习技术选介 ................................ 27
3.1 迁移学习 ................................................................................... 27 3.2 深度学习 ................................................................................... 31 3.3 统计关系学习 ........................................................................... 34 3.4 演化学习 ................................................................................... 36
第4章 大数据时代的机器学习 ................................ 41
4.1 并行机器学习 ........................................................................... 41 4.2 哈希学习 ................................................................................... 46 4.3 在线学习 ................................................................................... 48
第5章 结束语 ............................................................ 52
2
第1章 引言
“机器学习”(Machine Learning)是人工智能的核心研究领域之一,其最初的研究动机是为了让计算机系统具有人的学习能力以便实现人工智能[1]。机器学习领域奠基人之一、美国工程院院士T. Mitchell教授在其经典教材《Machine Learning》中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”[2]。一般而言,经验对应于历史数据(如互联网数据、科学实验数据等),系统对应于数据模型(如决策树、支持向量机等),而性能则是模型对新数据的处理能力(如分类和预测性能等)。因此,机器学习的根本任务是数据的智能分析与建模。
随着信息技术不断向网络化、低成本方向发展,人们在社会生活、科学研究等各个领域中的数据正以前所未有的速度产生并被广泛收集、存储。如何实现数据的智能化处理从而充分利用数据中蕴含的知识与价值,已成为当前学术界与产业界的共识。正是在这样的大趋势下,机器学习作为一种主流的智能数据处理技术,其作用日渐重要并受到了广泛关注。
例如,美国科学院、工程院两院院士T. J. Sejnowski等人2009年在《Science》上撰文指出,机器学习正成为发展新的学科的基础之一[3];美国政府2012年公布的大数据研究发展计划中,将机器学习作为核心支撑技术;在我国制定的《国家中长期科学和技术发展规划纲要》(2006-2020年)中,以机器学习为核心的“智能”关键词在目录中6次出现。特别值得一提的是,计算机界最高奖图灵奖在2010年与2011年连续两年授予机器学习领域的两位杰出学者(L. Valiant,2010年度;J. Pearl,2011年度),这标志着机器学习经过30余年的蓬勃发展,现已成为计算机科学中最重要和最活跃的研究分支之一。
本白皮书旨在简要阐述当前机器学习领域的研究和应用现状,主
1
要包括三方面内容:第2章对机器学习领域主流学习技术的研究进展进行了介绍,包括度量学习、多核学习、多视图学习、集成学习、主动学习以及强化学习;第3章对近年来新兴的机器学习技术做了选介,包括迁移学习、深度学习、统计关系学习以及演化学习;第4章对大数据时代一些重要机器学习技术进行了介绍,包括并行机器学习、哈希学习以及在线学习。在内容组织上,各章节主要包括背景介绍以及相关技术进展,并在必要时对所涉及的产业应用及未来可能的研究方向进行了讨论。
2