数字图书馆

CCAI 2017 演讲实录丨王梦迪：增强学习是人工智能的未来

发布时间：2017-08-16

7 月 22 - 23 日，在中国科学技术协会、中国科学院的指导下，由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办，CSDN、中国科学院自动化研究所承办的 2017 中国人工智能大会（CCAI 2017）在杭州国际会议中心盛大召开。

王梦迪

普林斯顿大学运筹与金融工程系助理教授

在大会的智能金融论坛上，普林斯顿大学运筹与金融工程系助理教授王梦迪女士分享了增强学习在金融研究上的最新进展。

王梦迪表示，增强学习是人工智能的未来，应当同古老的控制论思想结合起来，用大数据的方法来探索一个复杂系统的动态过程。

以下是王梦迪的演讲实录，AI科技大本营做了不改变原意的整理：

非常感谢组委会的邀请，很高兴能在杭州跟大家分享我们在科研上的一些进展。

我自己是做快速机器学习算法和复杂度出身的。但是现在包括我在内的很多做人工智能的朋友，最感兴趣的是增强学习。增强学习是人工智能的未来，为什么会这么说？我们来简单回顾一下人工智能的历史。

人工智能的历史回顾

在“人工智能”这个词出现之前，其实从某种程度上来讲，它已经存在了，当时我们称之为Control Theory（控制论）。那个时候还没有计算机，但是有纸、有笔，当时利用控制论可以对简单的机械装置进行控制，比如小车、液压系统。或者更进一步，在有了电之后，就可以对电气进行控制，以及后来的流水自动化系统、航空航天技术、导弹制导技术等等。它们之所以能够成功，都是因为有控制论，这是人工智能的雏形。

控制论的核心思路在于，对于一个已知的系统，机械系统、或者电气系统，我们可以用微分方程完整地描述它，这时候我们可以设计一套反馈的机制，用这套机制来实现我们的目的。这就是控制论，是人工智能的史前时代。

当代人工智能的发展主要基于最近二三十年机器学习领域的突破。我们现在之所以能坐在这里谈论机器学习，是因为首先有了计算机，然后有互联网，才能让互联网驱动计算机进行学习。

机器学习的核心问题是什么？我举几个例子：

我们看一张图片、一段视频，我们希望知道这张图片或者这段视频说明了什么，能够表达出它的意思。

我们看大脑的扫描图，希望通过这个图片识别出来哪两个脑区有非常强的联系，这样可以帮助生物学家和科学家研究大脑工作的机理。

看人的眼睛，可以通过一个人的虹膜判断一个人的身份，通过虹膜识别这个人。

这些都是非常有趣的前沿应用，它们的特点是基于大数据和大规模样本，去寻找事物之间静态的映射关系。

增强学习

再接下来是什么？是增强学习，或者说是深度增强学习。我们希望将史前时代和当代的最核心的技术以及最先进的思想结合起来，探索一个复杂的动态系统，用大数据的方法探索一个动态的过程，而不仅仅是静态的关系。

什么是增强学习？抽象来讲，德州扑克机器人就在做增强学习。机器人是一段算法，或者一段代码，它需要与复杂的环境进行交互，这个复杂的环境可能就是网上的牌局，这个复杂的环境里就会涉及到其他机器人玩家和其他真人玩家。

机器人刚开始经验有限，所以它需要不断地尝试来总结归纳出游戏的规则。随着机器人不断地尝试和试探，它也能够从牌局的真实发展中得到很多信息，并根据反馈来更新自己内在的一些记录，这个就是增强学习。

简单来说，就是我们用智能算法在线学习复杂的系统，并且实现对它的最优控制。这个问题非常难，比如说著名的AlphaGo。围棋非常难，因为它涉及的可能性非常多。机器人非常难，一是它的系统非常复杂，复杂到不能用微分方程描述。自动驾驶也是很难的问题，难在它涉及到多种不同技术的融合，还涉及到很多外在环境的变化等等。所以这就是增强学习要解决的问题。

增强学习的核心技术

这里面的主要技术是什么？

它涉及到方方面面的技术，从系统到算法到机器学习里面的一些核心思想，这里面最重要的是怎样对一个复杂的系统进行降维和归纳。在这一块，机器学习的技术可以在增强学习里面发挥巨大的作用，可以认为机器学习的成功是增强学习未来的成功的重要一步。

我们还需要神经网络，需要深度学习，需要用深度学习的方法对策略和价值函数进行建模，同时让价值网络和策略网络进行对抗式地共同学习，最终目的是希望利用神经网络模拟人脑的总结归纳的能力。此外在算法层面，甚至在硬件层面，我们需要大规模的分层的并列计算，在硬件层面，我们需要GPU等等。

增强学习的应用

游戏人工智能

有了这些技术我们能干什么？

首先必须强调的是增强学习或者说人工智能现在还处于婴幼儿时期。现在世界上最前沿的做增强学习的公司可能是Google的Deep Mind，他们希望把每一种电脑游戏都用增强学习求解。我们为什么要关心游戏？人在发展自己的智能的过程中，是通过游戏的方法来学习的，人工智能也是，这也是为什么人工智能在学习打一些简单的游戏，一直到越来越难的游戏，最终要解决更难的问题。

高频量化交易和钱化策略

另外一个和金融相关应用的是高频量化交易。如果在股票市场上进行高频量化交易，比如毫秒级、微秒级的交易，这时传统交易中的方法可能就不太好用了。为什么？也许我可以精算预测在接下来的5毫秒价格会往上走，但是市场上其他微观结构让我不能马上去交易，一旦我交易，就会产生未知的扰动，反而不能获利。这说明未知的人的操作会对微观市场造成影响，而且这种影响不能历史数据回测，必须用在线的方法去学，交易员跟德州扑克的牌手一样，需要在线去寻找更好的策略。

在金融以外，人工智能还有很多的应用，比如说医疗领域，我们可以从病人的病例中总结出一个病人的病理的发展规律，帮助医生更好地做决策。

智能金融，未来大有作为

最后，这是一个非常非常新，而且也非常有前景的领域，所有事情都发生很快。比如说在算法层面，半年前要解一个游戏，可能需要32核的GPU跑两三天，今天同样一个游戏，可能一个CPU几个小时就搞定了。

在系统层面，伯克利大学刚刚开发出的并行GPU的计算系统，可以让本来不能够并行、非同步进行的运算可以非常快地大规模同步。

在更底层的硬件层面，还有很多的公司，包括英特尔在做专门加速深度学习的元件。

无论是硬件系统还是算法层面，这个领域都发展飞速，我们有理由相信它在未来可以完成很多意想不到的事情，谢谢大家！

（本报告根据速记整理）

CAAI原创丨作者王梦迪
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

CCAI 2017 演讲实录丨王梦迪：增强学习是人工智能的未来