中国机器学习白皮书 - 图文(6)

2019-03-29 11:22

要最大化最终的奖赏总和。

图 2.7 强化学习设定

由于强化学习框架的广泛适用性，已经被应用在自动控制[91]、调度[92]、金融[93]、网络通讯[94]等领域，在认知、神经科学领域，强化学习也有重要研究价值，例如Frank等人[95]以及Samejima等人[96]在Science上发表了相关论文。强化学习也被机器学习领域著名学者、国际机器学习学会创始主席T. G. Dietterich教授列为机器学习的四大的研究方向之一[97]。

强化学习的目标是最大化累积奖赏，这一点与马可夫决策过程（MDP）的目标一致，因此强化学习也常常用MDP来建模。一个MDP定义为四元组，其中S表示环境状态的集合；A为“动作”集合，即学习器的输出值域；T为转移函数，定义了环境的根据动作的转移；R为奖赏函数，定义了动作获得的奖赏。MDP寻找最优动作策略以最大化累计奖赏。当MDP的四元组全部给出且S和A为有限集合时，求解最优策略的问题即转变为求解每一个状态上最优动作这一优化问题，而该优化问题通常可以通过动态规划来求解：在最终时刻，只需要考虑立即获得的奖赏，即可得知每个状态最优动作获得的奖赏；这一时刻状态的最优奖赏，随后用于求解退一时刻状态的最优动作和最优奖赏。这一关系即著名的Bellman等式[90]。因为MDP四元组全部已知，实际上并不需要与环境交互，也没有“学习”的味道，动态规划就可以保证求解最优策略。

强化学习通常要面临的难题是，对于学习器，MDP四元组并非全部已知，即“无模型” (model-free)。最常见的情况是转移函数T未

知以及奖赏函数R未知，这时就需要通过在环境中执行动作、观察环境状态的改变和环境给出的奖赏值来学出T和R。我们可以把强化学习方法分为基于值函数估计的方法和直接最大化累计奖赏的直接策略搜索方法。

基于值函数估计的方法试图在与环境交互的过程中估计出每一状态上每一动作对应的累积奖赏，从而得出最佳策略。这一类方法的代表有时序查分学习方法SARSA[98]和Q-Learning[99]。基于值函数估计的方法由于其目标并不是直接求得策略，而是通过值函数的学习来得到策略，即最终的策略是选择值函数大的动作，因此在较复杂的任务上会出现“策略退化”的现象[100]，即虽然值函数估计较准确，但得到的策略却不好。直接最大化累计奖赏的直接策略搜索方法则不依赖于对状态上累积奖赏的估计，而直接优化策略获得的累积奖赏。这一类方法的代表有使用策略梯度方法优化参数化策略的REINFORCE[101]方法，以及使用演化算法等全局优化算法来搜索策略的NEAT+Q[102]方法等。

强化学习在实际问题上的广泛使用还面临诸多挑战，主要包括特征表示、搜索空间、泛化能力等方面的问题。

经典强化学习的研究中，状态和动作空间均为有限集合，每一个状态和动作被分别处理。然而，一方面许多应用问题具有连续的状态和动作空间，例如机械臂的控制；另一方面即使对于有限状态空间，状态之间也并非没有联系，例如棋盘上走棋有位置关系。因此如何将状态赋予合适的特质表示将极大的影响强化学习的性能。这一方面的工作包括使用更好的特征编码方式[102][103][104]等，而近期得益于深度学习技术的发展，特征可以更有效的从数据中学习，Google DeepMind的研究者在Nature上发表了基于深度学习和Q-Learning的强化学习方法Deep Q-Network[105]，在Atari 2600游戏机上的多个游戏取得“人类玩家水平”的成绩。一方面可以看到特征的改进可以提高强化学习

的性能，另一方面也观察到，Deep Q-Network在考验反应的游戏上表现良好，而对于需要逻辑知识的游戏还远不及人类玩家。

由于强化学习关于累积奖赏的优化目标，涉及多步决策，这使得策略的搜索空间巨大、累积奖赏目标极其复杂，优化非常困难。一方面需要研究更加有效的优化方法，例如使用Cross-Entropy等方法进行优化[106][107]。另一方面，通过引入模仿学习[108][109]，可以极大的缓解这一问题。模仿学习中，存在能做到接近最优策略的“教师”，并且由“教师”进行示范，提供一批演示样本，这些样本可用于直接指导每一步的动作，因此可以借助监督学习帮助强化学习。同时模仿学习的另一作用是从演示样本中学习奖赏函数，称为逆强化学习[110][111][112]，从而可以在应用问题中免去对奖赏函数的定义，例如IJCAI Computers and Thought Award得主斯坦福大学Andrew Ng教授使用逆强化学习进行运动轨迹规划[113]。

经典的强化学习研究多假设学习器处在稳定环境中，即MDP四元组都是固定不变的，学习器在这样的环境中进行学习，学习到的策略也只在相同的环境中进行使用和评价。经典的强化学习研究在车床控制、工业机器人等稳定环境中取得了成功的应用。然而随着强化学习的应用向更多的领域拓展，面对的环境更加复杂，以往的限定条件下的假设不再成立。例如在自动驾驶中，不同配置的车辆驾驶到各种各样的地形，某一种车辆在某一种地形上学习到的策略可能难以应对。IJCAI Computers and Thought Award得主、AAAI Fellow、美国德克萨斯奥斯丁大学 Peter Stone教授也发文指出限定条件下的强化学习算法面临领域过配问题(domain overfitting)，限定条件下设计的算法只能用于特定领域、而难以通用[103]。对此问题，已出现了一些关于强化学习领域迁移的研究[114][115][116]。

总之，强化学习的发展是以满足越来越广泛的应用需求为方向，除了上面阐述的工作，最近在奖赏反馈延时方面也出现一些工作，试

图解决在线应用中实际获得奖赏的过程存在延时、难以精确得知环境奖赏具体来自哪一步动作的问题[117]。值得注意的是，在国际上，强化学习是机器学习领域的重要分支，以ICML 2015为例，专门的强化学习占两个session，另外Bandit学习session和两个在线学习session中大半也是关于强化学习的工作。然而国内强化学习方面的研究相对较为冷淡，在顶级会议上发表的强化学习工作较少。

第3章新兴机器学习技术选介

3.1 迁移学习

在传统分类学习中，为了保证训练得到的分类模型具有准确性和高可靠性，都有两个基本的假设：(1) 用于学习的训练样本与新的测试样本满足独立同分布；(2) 必须有足够可用的训练样本才能学习得到一个好的分类模型。但是，在实际应用中我们发现这两个条件往往无法满足。首先，随着时间的推移，原先可利用的有标签样本数据可能变得不可用，与新来的测试样本的分布产生语义、分布上的缺口。另外，有标签样本数据往往很缺乏，而且很难获得。这就引起了机器学习中另外一个重要问题，如何利用少量的有标签训练样本或者源领域数据，建立一个可靠的模型对具有不同数据分布的目标领域进行预测。

近年来，迁移学习已经引起了广泛的关注和研究[118]。迁移学习是运用已存有的知识对不同但相关领域问题进行求解的新的一种机器学习方法。它放宽了传统机器学习中的两个基本假设，目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。迁移学习广泛存在于人类的活动中，两个不同的领域共享的因素越多，迁移学习就越容易，否则就越困难，甚至出现“负迁移”，产生副作用。比如：一个人要是学会了自行车，那他就很容易学会开摩托车；一个人要是熟悉五子棋，也可以轻松地将知识迁移到学习围棋中。但是有时候看起来很相似的事情，却有可能产生“负迁移”，比如，学会自行车的人来学习三轮车反而不适应，因为它们的重心位置不同。近几年来，已经有相当多的研究者投入到迁移学习领域中，每年在机器学习和数据挖掘的顶级会议中都有关于迁移学习的文章发表，比如，ICML，SIGKDD，NIPS，IJCAI，AAAI，ICDM以及CIKM等。

共8页:

中国机器学习白皮书 - 图文(6).doc 将本文的Word文档下载到电脑下载失败或者文档不完整，请联系客服人员解决！

下载这篇word文档