数字图书馆

GAITC 2016 演讲实录丨徐伟：人类离实现通用人工智能还缺少什么

发布时间：2016-05-11

人类离实现通用人工智能还缺少什么

What Are We Missing from Artificial General Intelligence

徐伟

百度深度学习研究员“杰出科学家”

以下是徐伟的演讲实录：

我在的部门在百度叫做深度学习实验室，这是2013年的时候在百度成立的专注于深度学习的实验室，应该是全世界在工业里面第一个专注于深度学习研究的实验室。我今天要和大家分享的首先是看一下最近几年来人工智能在图像语言方面的最新的进展，以及分享一下我对人工智能目前它缺少的东西，以及以后我们未来可以去继续工作的方向。

人工智能这个概念最近几年非常火，我们看到人工智能传统的一些研究方向，像计算机视觉，还有语音识别，这些方面在最近几年都有了过去几十年不可想象的巨大进展。尤其是上个月Googel的AlphaGo和李世石下的那盘棋以后，更是激起了大家对人工智能高度的热情。为什么人工智能在最近几年有快速的发展呢？一个最重要的原因就是我们通过了几十年的积累，我们现在已经有了非常可观的计算能力，同时在这个计算能力的基础上，可以在一个可接受的时间内处理大数据。我们最近几年因为深度学习的发展，给我们提供了一个非常灵活的，非常具有建模能力的学习系统，正是因为这两者的结合，它能够把我们大数据后面蕴藏各种丰富复杂的关系，能够把它提取出来。从而成为我们人工智能快速前进的巨大推动力。

因为看到深度学习的巨大潜力，百度也投入了非常多的力量来开发一个深度学习的训练和运算平台。这个平台叫做PADDLE。那它的目的就是为了把深度学习更好的应用到百度的各种产品里面去，让它更方便的，更好的提高我们的用户体验，提高智能度。我们这个深度学习的平台能支持各种丰富的数据类型，比如说像二维图像数据，或者是词的训练数据，尤其像工业界非常重要的上千亿的稀疏数据，也能非常有效的支持。

另外也提供了非常灵活的建模表达能力，能非常方便地根据他应用的需求，配置出不同的深度学习的模型。比如说一个循环网络，或者是处理图像的卷积网络，任何灵活的组合都可以在我们这个平台上面很方便的配置出来。

因为在百度我们有非常大量的运算资源，为了能够充分的应用我们的运算资源，我们这个平台也非常高效的进行多机的训练，这样也能很有效的处理我们的大量的数据。

因为有了这么一个非常高效，非常灵活的计算深度学习的平台。百度最近几年把深度学习运用到了产品的方方面面。比如说核心的搜索和广告这样的产品，还有可能不太想到的，像数据中心的智能控制，病毒的查杀，这种产品里面我们都成功的把深度学习应用到上面去，提高我们产品的体验。

随着深度学习的逐步在各种人工智能问题里面的更深入的使用，我们现在开始看到机器在一些很特定的感知问题上，它的能力已经在逐渐接近甚至超过了人类的水平。比如语音识别，我们百度的语音搜索，在比较短的文字，和上下文没有太大关系的语音识别这种任务，我们百度的语音识别系统做到明显比人好的程度，错误率不到6%，而人的任务上的错误率可以是接近了10%。因为实际上在没有上下文关系的情况下，这是非常难的任务。

还有另外一个例子就是人脸识别，也是随着深度学习的使用，人脸识别这个东西也是最近几年有了非常大的提升。人脸识别一个最核心的任务，就是给两幅图，你要判断是否来自同一个人，包括百度在内的很多公司还有研究团体，都取得了明显比人好的水平。能看到我们的机器错误率现在非常低，只有0.23%，而人的任务率是0.8%，现在已经不及机器了。

还有像其他一些图像识别的任务，在最近几年也都有了非常快速的进步。比如说细粒度图像识别，在一类物体里面我们还要区分它子类，比如说在狗里面要区分各种不同的狗。这样的任务实际上是比更普通的物体识别更难，因为要对物体细致的特征有区分。这样一个任务上在2013年的时候，我们最好的系统错误率都还是50%，到了2015年错误率就降到20%，可到今年最新的结果错误率就降到10%几。像这种细粒度的物体是别人是很困难的，人是很难认识200多种狗的。

下面我们谈一些语言方面用深度学习的进展。我们知道其实语言是人类智力的核心的体现。我们是用深度学习的思想来处理语义理解的任务。传统在语义理解的任务里面，基本上是要分好几步走的过程。首先要通过词法解析、语法解析，然后构造各种人为的特征，然后得出语义分析的结果。深度学习的理念就是端到端的，从最原始的数据开始的，这里就是一个词的序列开始的，我们不考虑任何的人为的特征构建，就直接用一个完整的模型，得出我们想要的结果。我们人对这个问题的理解，主要是体现在我们模型的结构当中。这样的思想，过去几年在图像识别、语音识别里面都给他们带来了巨大的提升。我们在语音理解这样的任务里面，也做到了比传统方法好的结果。

另外一个非常好的，端到端的深度学习，在自然语言处理里面非常成功的应用，就是机器翻译。端到端的机器翻译的做法，是2014年的Google首次提出来了，因为是一个新方法，大家认为很有潜力的。但是刚提出来的时候还是比传统的方法有明显的差距。但仅仅过了一年以后，就能够达到了传统方法的质量。今年的结果已经比传统的方法好了。一旦我们用好了以后，就可以对它各种效果有非常快速的提升。

除了语言其实最近和语言相关的比较热点的研究方向，就是把语言理解还有图像识别，语言生成这些传统的人工智能比较隔离的研究方向，有机的组合起来，用一个完整的深度学习模型来处理。通过这样的一个整体的模型，我们机器就可以比较更自然的学到语言和它感知到的物理世界的联系。

像这样的统一的视觉语言统一的模型，我们有一些例子。第一个就是看图说话，给了图以后，说出一个非常自然的描述，“一辆火车沿着森林间的铁轨驶过”。也可以对图像的自然语言的提问，给出一个合适的答案。甚至也可以理解视频，看到一段视频以后也可以给对这个视频做出描述。这个工作我们在百度是属于比较早的开始，现在也有很多研究机构在做这样的视觉和语言统一的研究。

深度学习最近还有一个事，就是现在向更深的模式发展。在去年图像识别比赛上面，我们看到获奖最好的一个模型是微软开发的深度达到150多层的深度模型。另外我们在翻译上也发现，随着模型深度的不断加深，翻译效果也是变得越来越好。

深度学习最近还有另外一些研究的热点，就是所谓的推理、注意力、记忆，这方面是偏向于人类认知能力的，希望把这样的一些机制能放在深度学习能力模型里面来。特别是在这里面注意力这样的机制，在一些实际的应用里面也取得了非常好的效果，比如细粒度的图像识别，或者翻译的任务。像记忆的机制，现在还是比较初期的阶段。

深度学习给AI带来了快速的进展，但我们还有很多的路要走。人工智能这个概念是1955年的时候John McCarthy提出的，同时还有3位重量级的研究人物。他们说了要用10个月花两个月时间，对人工智能做一个非常巨大的进步，实际上我们现在看到他这个是远远低估了人工智能的难度。现在的人工智能还有很多的缺陷，人类智能一个最核心的点就是自我学习和创造的能力，我们看到现在有很多具体的智能的系统，比如说AlphaGo，它还缺乏一种自我学习和创造的能力。比如说来了一个新的棋给他学，还需要大量的人参与工作，才可以改造。而人就不需要，人可以自己主动的学习各种新的任务。

最重要的一点就是说现在人工智能还缺少一种从少量标注数据学习的能力，一个例子比如说图像识别，ImageNet里每个物体种类有几百幅图，一个小孩要认识一种东西可能几幅图足够了。还有英法翻译的训练数据，人可能需要几万个小时能阅读完，但如果你是说英语的，掌握法语的话可能只需要几百小时。所以看到现在的深度学习缺乏少量标注学习的能力。

那么最核心的一点就是我们需要有对环境的一个非常好的表示，就是说我们需要通过非常大量的数据太能学习出来，非监督学习的机制，才能让我们有效的利用到大量的非标注的数据，进行非监督学习方式的一个最行之有效的方法，就是用它来预测未来。我们知道预测未来的能力是人智力的核心体现。比如说物理学是一个对简单系统的预测，人类的智力包括机器学习，是一个复杂系统的近似预测。如果我们通过这种预测未来的学习方式，就可以有效的掌握环境的规律，所以得到有效的表示。

我们现在的人工智能系统缺乏常识，刚才李院士也讲了很多的自动车，我们在座的很多人开车可能开几百公里就非常好了。但大家知道我们现在最好的Google的自动驾驶车，现在已经开了超过了200多万公里，但既使是这样，现在还是不能够去驾车。最核心的问题是缺乏一种像人这样的常识，就是说它遇到很多路况对人是非常简单的，人看到就知道怎么做。但机器缺乏常识性的理解，就只能通过人一条一条把每种路况导入系统里去。要想解决这样的问题，我觉得有效的方式就是放到真实的环境里面学习，像这样的概念最近在Facebook和微软也提出了这样的想法，他们提出创造一个虚拟的模拟环境，让人工智能体在这个环境中自己去探索，然后就可以在这样和环境的交互中，就能比较有效的建立它常识一样的东西。

还有另外一个主要的局限之处，就是通过数据来学习。我们现在所有的东西首先要考虑搜集数据。我们人来学习，比如说要区分这样两种不同的鸟，需要收集大量的数据，从数据里面自动总结出规律出来。实际上我们人会告诉他，可以看到这两个图的区别，人可以用非常精炼的语言告诉其他人。而现在的机器学习还非常缺少有效的能够利用人的知识的途径。

我认为如果要解决这样的问题，我们需要把语言作为机器学习系统一个基础的能力，否则的话我们就很难做到能够把人类大量的知识传递到机器里面去，然后同时来说我们需要这个机器能够理解语言，这样我们才能够表达人类的需求，能够帮助他的理解。旁边这就是一个电影里面的人在教机器人来学习读书。

我们要做真正像人这样的非常强大的人工智能，可能我们需要从最基础的东西开始做起。我们需要做的是像幼儿一样，让他自主在一个环境里面去学习感知，学习他的行动的一些基础的技能，同时把学习语言作为一个最核心的东西，包含在这样的一个系统里面。这些就是大概我的分享，我们还有非常多的困难，但是我觉得也给我们带来非常多的机会，我也希望有更多人和我们一起探索人工智能非常有意思的问题，去创造我们人工智能的未来，谢谢大家。

（本报告根据速记整理）

CAAI原创丨作者徐伟

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

GAITC 2016 演讲实录丨徐伟：人类离实现通用人工智能还缺少什么