中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2016 演讲实录丨胡郁:从“能听会说”到“能理解会思考”——以语音和语言为入口的认知革命

发布时间:2016-05-11

从“能听会说”到“能理解会思考”

——以语音和语言为入口的认知革命

From ‘Be Able To Listen And Speak’ to‘ Be Able To Understand And Think’

— A New Wave of the Cognitive Revolution Starting From Speech and Language Technology


11.png

胡郁

中国人工智能学会副理事长  

科大讯飞轮值总裁


以下是胡郁的演讲实录:

今天非常高兴能够借人工智能60周年纪念活动的机会,和大家进行交流。我今天报告的题目是“从能听会说”到“能理解会思考”。因为在过去的几年当中,其实我们讨论人工智能,我记得我在前几年的报告中讲了四个W,人工智能是什么?人工智能现在发展到什么阶段?人工智能将怎么样颠覆?人工智能还会有哪些新的进步?这次我的报告主要介绍一下我们在人工智能落地方面的具体的进展,我觉得过去大家已经有比较清晰的认识。最近一件比较重要的事情就是AlphaGo战胜了国际围棋大师李世石九段。在前段时间凤凰卫视做了一期节目,请我来研讨这个事情。我记得当时在AlphaGo和李世石对弈之前大家的评测是一边倒的,很多人认为机器人现在离人类的差距还很大,但是4:1的大比分的结果让很多人大跌眼镜。而且当时我在现场看到柯洁九段当时也显得比比赛结果出来之前腼腆了很多,他说现在我要跟AlphaGo下的话还要好好准备,我说你要下棋的话先要跟我们做人工智能的专家好好聊聊,因为我们现在对AlphaGo到底有什么弱点还一无所知。

22.png

从这个角度来分析如果说AlphaGo战胜了李世石就代表人工智能战胜人类,这个还相去甚远。因为从围棋这项运动上来讲,我们的专家一直认为计算机能打败人类是迟早的问题,因为计算机的计算能力在不断的提升。大家没有料到是这么短的时间内,因为根据围棋需要的计算量,按照我们现在计算机计算能力的增长速度,需要再到10到15年才能把围棋整个的计算路径完全覆盖。但是现在我们用了什么样的方法,提前了10年到15年就完成这一点呢?其实答案就是深度学习。但是人们惊讶的不只是时间提前了这么多,更重要的是事后大家有很多的分析,说围棋也有自己的思维,其实不是的。AlphaGo这个程序完全用了机器比较擅长的方法战胜人类,而这个擅长的点就是它特别善于计算、学习。这里面提到了一个数据,说人类到现在下完所有的围棋有记录的有16万盘,但AlphaGo在自己学习下棋的过程中,它自己又生成了3000万盘,我相信没有一个人能记下来,但是计算机可以,因为它算的快,存的多。同时利用了感知能力和它自己强大的运算能力,用搜索的方法做了很好的结合。大家可以看到计算机在战胜人类的方法上,完全和人类不一样的,它走了自己的道路。 

我们可以得出一个结论,对于围棋这样的固定规则下的完全信息博弈,从运算或者是计算的角度来讲已经没有任何的悬念了,这也印证了前几年在这方面的分析。如果你要跟计算机来比运算能力,或者是记事情的能力,我们现在已经看到人类完全不是机器的对手,这已经没有什么悬念了。

33.png

但是我们也可以看到人类的智能突破,人类其实并不擅长计算,人类的记忆力也没有计算机这么强大,但是我们人类为什么这么聪明呢?我们以前也讲到很多次,人类记忆力的奇点的突破,其实人类的出现已经有200万年,但是在7万年前人类有一个非常大的进步,非洲来的智人占领了世界,这个过程中人类突然开窍了。历史学家的分析是,这段时间人类发明了语音和语言的体系,有几个直接的后果。其中第一个就是能够对我们周围的世界进行更加详细的描述。第二个,就是对我们人类社会之间的关系,他们所说的八卦,我们讨论人和人之间的关系,这样使我们团队的合作能力进一步提升。更重要的是我们人类可以谈论一些虚构的概念,比如说梦、宗教、公司,构成了现代人类系统。这已经是历史学家的一个共识,而且他们把人类历史上的这个过程叫做认知革命。 

所以从计算机的能力上来看,正是它们在人类不擅长的运算上面非常强。在人类和动物都有的感知方面,比如说听觉、视觉,从这个角度上来讲计算机发展也非常快。特别是刚才几位报告人都提到了,在大数据、移动互联发展的情况下,机器在感知计算上的发展还是挺快的。但计算机如果像人类一样发生一个认知革命的话,在认知智能方面还需要进展。但是现在认知智能做到什么程度呢?我们还要看一下。在这个情况下我们科大讯飞就是把感知智能和认知智能结合在一起,我们有个新的项目叫超脑,而且非常希望从这方面取得突破。 

从突破的方式来讲大家都接受两种方法,一种就是对大脑科学深度的研究。我们都知道人的大脑是一个非常神奇的系统,我们现在的深度神经网络就是来自于人脑的启发。但非常可惜我们对人脑的认识还处于一个比较浅的层面,我们的深度神经网络和人脑的真正神经网络相比还有很大的差距。但在这个方面突入研究,是突破强人工智能的方向。但是我们看到也许这个方向需要5年、10年,甚至20年的时间。但从另外一个角度我们看到工业界,包括微软、IBM、Google,取得了巨大的人工智能方面的成绩,依赖于我们现在工业上所使用的弱人工智能的方法,就是依赖于大数据。 

在这个方面我们能够看到一个前景,就是他们之间的相互借鉴。就像人类学习飞行,我们看到了原来鸟来飞行,自由自在,我们人类原来想学它。但是通过深入的分析我们发现鸟飞行的关键性的因素是空气动力学,找到这个根本性的原理,我们造出了飞机。对人脑的研究不仅仅要学习现代的神经网络,我们在中间也可以找到更好的智能动力学的东西,来指导我们的进步。但是我想这是一个需要长期技术研究的问题。 

我们最近可以做什么呢?最近可以通过深度神经网络、大数据,还有利用互联网和移动互联网,互联网迭代优化的效益来改进它。现在大家已经看到很多这方面的进展。从人类大脑的角度来看,其实从感知和认知是结合为一个整体的,如果我们把人类的大脑皮层摊开,其实整个区域划分成几个部分。图下的部分是感知的部分,包括视觉、听觉、触觉。而这些概念到上面都会汇集到一个认知的部分。大家可以看到,当我们看到一只猫,听到它的叫声,在我们大脑的认知皮层里面会出现一个猫这个概念的表现,而这种表现又会反过来作用到感知皮层的各个方面,让我们对将来的东西有一个预测。所以现在我们制订一个框架,其实是现在感知层面要把听、说、读方面要做好,同时反馈到认知智能层面,然后进行合理的推理,再返回到整个的感知层面上,从而形成一个闭环。依据于这个方面大的框架,我们是来自于人脑的启发,但是具体用什么样的方法去做呢?其实最近我们做了很多这方面的研究,也取得了重要的进展。 

在过去的几年当中其实我们在深度神经网络上应该讲一直不停的有深入和发现,我们发现每次随着技术的进步,我们这些进展也在不停的深入。我们可以看到最近这两年在语音识别、图像识别,包括在自然语言理解方面都取得了一系列的进步。语音识别从使用RNN建模到使用CNN的方法来做,图象识别方面CNN进一步取得了进展,特别是自然语言处理方面,我们运用了人的关注度提高的机制,其实在很多方面已经取得了显著的提高。下面来详细地看一下。 

首先我们来看一下图像识别,这是人脑当中研究比较透的方法。单独看到我们的人脸上的某些部分的话,其实你没办法得出整体的概念。但是人脑可以将我们这些局部点的处理,一层一层的向上反馈,直到形成一个完整的概念。这套框架在过去的几十年当中,应该讲已经非常成熟了。但是在处理我们讲的很多现在的文字扫描,跟语音语言有关的方面其实还有很多的挑战,我们来看两个例子。一个例子就是千里共婵娟,很容易把这几个字分开。或者是有的时候看不清楚字里面显示的内容,识别结果也是错误的。在这些方面的挑战下,我们基于大数据的处理方法,结合了文档处理等一系列的方法,形成了新的关于深度神经网络的构型。在整个的框架下我们尽量的使用了各种不同种类的神经网络的组合,其实在我们人的大脑中,在我们处理一个视频的过程中,神经网络的组合也是不同构型的,我们用了全通道的神经网络,包括还有递归神经网络,以及最后的深度神经网络的一种组合。在这种组合框架的策略下,我们可以得到一个非常好的结果。现在对于拍照的,我们讲的这些语言文字的识别,从原来传统方法的60%多,结合我们现在收集到的非常多的试卷的大数据和手写的大数据,现在已经能做到93%,这个非常好的支持了,我马上要说的我们要跟阅卷系统结合的处理。这样的话大家可以想象一下,当学生在试卷上写下他的答案的时候,这些结果已经被我们识别成文字了。 

这地方我给大家播放两个例子,刚才讲到图像识别,大家在印象中只有图像中可以用卷积神经网络来做,但我等下讲的过程可以让大家看到,我们可以用来做语言。首先来看一下第一阶段的结果。这个是有几个实际的语音数据。其实你真正听到的不一样,因为我们大脑是有记忆功能的,在大脑的记忆功能中间我们可以看到,我们能够把前一段时间的声音记录下来,并且和后面的数据进行处理。利用这种新的架构,其实我们在原来的传统的基础上做一个递归神经网络的结构,可以把我们的信息的输出反过来输入到系统当中去,这样的话整个系统就可以记住前面的时刻或者后面的时刻的信息,这是我们做的架构。 

这里面有很多的挑战,比如说不同的技术点叠加在一起效果是有冲突的,同时延时也比较高。这里面我们设计了新的递归神经网络的构型,可以更好的利用我们刚才说的记忆的潜质。但是仅仅做递归神经网络可能还是不够的,我们来看一下真正的语音,它在我们的耳朵里面呈现的方式其实是什么呢?其实是一幅图像。MIT多媒体实验室的一位专家,就可以通过这个图形直接判断出你说的是什么声音,因为在图形上表示当你有很多的噪声显示出来的时候,只是图像颜色的深浅发生了变化,而图像的形状不会发生变化的。我们可以看到这张图里面有两个字相同的,欢迎大家来到科大讯飞,这两个“大”字大家注意一下,中间的图形非常接近的,非常遗憾,因为以前的处理能力和计算方法的问题,我们没有办法像大脑一样直接读频谱上的语音图。但我们现在最新的进展可以做到这一点,我们把整个语音谱图作为一个识别的网络,经过一系列的处理不仅仅可以集成我们刚才讲的效果,而且可以更好的看到全局的影像。最后出来的结果是什么样子的呢,其实现在语音识别的效果很高了,达到90%,但经过我们一层层系统的改造,单项的系统是业界最好的,经过我们两层改进之后还可以再提高50%。所以说将来在语音识别方面,计算机可以超越人类,因为人类现在的目标是99.5,所以说计算机在感知智能方面超越人类的进度还是非常快的。 

语音识别现在也全面的进入了读图的时代,这和我们的工作原理已经非常接近了。但是刚才我们想解决的还是感知的层面。认知的问题,语言的理解、推理的表示,联想自主的学习,我们需要一个框架来处理。这个框架需要最基础的自然语言的的描述。

首先看一下自然语言描述,在词语层面,因为大家知道人类的语言是一层层上去的,词语代表基本的概念,句子代表概念之间的关系,而篇章就能形成更大范围内整个语义的组合。这个过程中我们也使用了一系列的技术来共同的处理。这些东西的处理已经构成了整个自然语言处理的基本的层面,但是更重要的是我们要挑战在语言理解生成和知识表达方面的进展。我们从四个角度来看一下,分别是口语翻译,作文批改,难度预测和最后的阅读理解。这是非常有意思的事情,这是让机器像人类一样逐步的可以理解我们的语义。用什么方法解决呢?其实这个方面在国际上是非常前沿的方向,最近我们形成了一个新的方法,很好的解决了其中的一些问题,并且取得了显著性的进展。

Attention就是关注度聚焦的概念,是在图像识别中首先被提出来的。大家可以看到人脑在看一幅图像的过程中,其实他的注意力不是一整个的图像,他会关注到图像中最具备含义的信息。从这个关注热力图也可以看出来,人在看一幅图像时,会高分辨率的集中在某些区域,低分辨率的注意其他区域,这张图是根据人的眼动仪的模型得到的。如果看下面的文字,大家最关注的还是关键性的数字,机理上我们应该怎么实现呢?现在在递归神经网络的基础上,基于Attention最近几年得到了非常大的发展,可以根据你要处理事件的关注点,形成一个模型。通过这个模型可以知道你最需要关注的要点在什么地方。 

下面是例子,翻译,大家都知道翻译是两个语种之间进行交换的技术手段。但是我们常常遇到一个问题,不同的语言之间语序不一样。我们看一个右边的例子,给大家解释一下,他说“我是谁”。我们可以看到它对应的翻译成英文顺序就是反的,我在中文里面被放在第一位,英文里面是最后一位。我们通过神经网络分析的时候,能自动的通过网络结构的设计,把“我”和后面的“I”之间的联系加大,就可以进行调序的处理。通过Attention的神经网络翻译,相对于以前的翻译,右边的是采用传统的方法来做的系统,但表现是很差的,但是采用了Attention的效果之后达到了4.5分。所以说这两年会关注到机器翻译的进展非常大,得益于我们新型的Attention的设计。 

除了翻译以外还有第二个方面的例子,篇章的评阅。我们都知道在教育领域中做了大量的分析,给你一篇作文,这个作文中如何评价好还是坏。传统的评价方法中有很多的手段,比如说我们看到这篇作文上有几个方面,大家可以看到画颜色的部分是用的排比的手段。所以修辞比较优美,而下面这些蓝色的部分引用了非常多的名句。但这些分别占多少权重呢?从人工的方法很难体现。我们现在找到了很多的待评阅作文,还有已评阅作文,专家给出了分数的。我们将两种作文中先根据原来讲的基础的方法,转换为语义的向量表示,然后再定义我们的Attention,再比较我们的范文之后的关系。因为我们的范文的得分已经得到了,根据这些关系的描述,最后我们可以得到评分以及评语。比如说用了排比和最后用了引用,它分别能得到多少的权重。我们的Attention机制会注意在整个作文评分中哪些点最关键,机器会自动的学习出来,这样使我们原来的整个篇章评价的过程,在机器上现在非常容易进行处理了。 

这是篇章评测的结果,这个结果跟前面的不太一样。左边是采用原来系统的性能,右边是新系统的性能。我们提升的非常明显,这个技术在教育领域非常明显的,现在的孩子作文评阅都是老师进行的,老师的工作量很大。通过这样的方法机器就可以批改作文了,这样也可以便于我们进一步形成大数据。 

第三个例子,大家都知道我们在学习英文的过程当中,每个人要选用合适难度的题目。但是怎么判断这个英语的题目的难度如何,其实也是非常难的事情。我们做了实验,请老师也对一些英文题目进行评判。这道题讲的是描述了很多中国光棍节的事情,中间有一个题目是光棍节最重要的场景是什么样子的?下面有四个选项,其中有一个是最近几年出现的双11购物。从老师的角度来讲认为双11购物已经是非常非常清晰的概念,他们认为这个题目就不是特别难。但是其实从学生的角度来讲,他们的认知跟老师的概念不一样,他们会觉得这个题目比较难。我们也是通过了一种Attention的方法来把刚才看到的整篇文章,问题本身和这些答案之间进行一个Attention的关联。通过这个方法我们预测出来的,大家可以看到结果。在专家认为的预测的题目相关度的波动范围是0.3到0.6之间,有的很高,有的很低。但机器现在比较准确的预测到相关度,达到0.53。我觉得这个也是机器对认知方面智能的一个非常重要的提升。

最后一个非常有意思的例子,大家都知道人的智能,当我们的小孩长到五六岁的时候就可以给他看一些文章,并且让他回答一些简单的问题。我们也以这个为目标,看看机器是不是可以回答出这些问题来。这里有一个题目,月牙的影子在水中闪动,有一个什么东西看见了,以为是一条鱼。有一段话中间有一个描述,这也是Facebook和我们现在都在做的题目,我把它中间的主语清除掉,读了课文以后能不能把空填上,问题就在于是什么东西看见了以为是一条鱼。用传统的方法基本上解决不了这个问题的,因为这里面的主语太多了,任何一个动词的主语都可以放在这个地方来填。但是用Attention的方法,我们可以得到这整个文章中所有主语的热力度注视图,跟这个空相关的最深的词语就是鸭子,最后的答案应该是鸭子。 

通过这个系统,我们现在对于这种填空题的效果已经达到72%,而我们测试的6岁的小孩能达到58%的正确度。所以现在在简单的阅读理解的题目上面,机器在认知方面也取得了很高的进展。 

正是因为有了这样的组合,所以说我们跟机器的交流才有可能成为现实。我们最近推出了一个新的界面,AIUI,能解决很多的问题。传统的方法是比较简单的,因为只有感知和认知的组合。我们都知道我们人类在跟你交谈的时候,他的语音识别和语义理解是一气呵成的,完全成为一个整体来进行的。我们的新框架里面,当我跟你对话的时候我判断你这句话说完以后,除了根据你的停顿,根据你的语音以外,其实我要理解你这个语言的含义,我们现在新的系统可以做到这点。当我把这个结合到一起的时候,可以从原来40%的成功率提升到现在的90%,所以这样的感知智能和认知智能的结合,其实对我们人和机器的交互起到非常大的促进作用。 

刚才提到的很多在感知智能和认知智能在更大的应用上取得进展,比如说口语的评分,利用技术组合在一起。英语口语原来很难,现在可以用机器来理解,一方面从语音、语调、发音的角度,从词汇、语法,给一个综合的评分,这样的评分已经应用在我们很多学校的教育当中去,帮助我们的老师更好的来了解他的学生的学习情况。 

还有一个进展就是刚才的OCR现在发挥作用了,我们对一个学生的作文内容,手动答题的内容,我们可以先把他手写的内容识别出来,然后根据我们刚才的评价系统对他进行评价,甚至可以帮他纠正其中的错误。这对于我们将来不仅仅是在英语,包括在语文,包括在很多的其他方面,其实我们都可以发生很好的作用。这对我们将来的教育会是一个巨大的变化。

(本报告根据速记整理)

CAAI原创 丨 作者胡郁

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会