中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2018 演讲实录丨Alexander Waibel:智能系统和语言透明世界

发布时间:2018-05-28

人工智能是我们目前最重要的技术,我希望能够通过科技的开发,把我们的世界通过不同的语言、不同的交互更紧密地联系在一起。 

5月19日,在2018全球人工智能技术大会上,美国卡内基梅隆大学(CMU)教授,德国卡尔斯鲁厄理工学院(KIT)教授Alexander Waibel发表了题为“智能系统和语言透明世界”的演讲,为在场听众讲解了智能系统以及智能语言在AI中的应用。 

9.jpg

Alexander Waibel

美国卡内基梅隆大学(CMU)教授

德国卡尔斯鲁厄理工学院(KIT)教授

以下是 Alexander Waibel 教授的演讲实录: 

大家早上好,非常开心回到中国,我已经来过中国很多次,每次都是非常开心的旅程,每次都看到了中国巨大的变化和进展。我知道,我们在人工智能方面也取得了非常大的进展。感谢主持人刚才的介绍,也感谢大会邀请我参与到本次会议中。 

今天我会给大家介绍智能系统和语言透明世界。什么意思?智能系统或者人工智能是今天大会的主题,是语言和人工智能之间的关系。人工智能也是我们目前最重要的技术,希望能够通过科技的开发,把我们的世界通过不同的语言、不同的交互更紧密地联系在一起,这是我今天想跟大家介绍的。 

10.jpg

首先看我们现今的世界是什么样的,我们一共有60亿的手机存在于这个世界上,预计大概到2020年,有80%的世界人口都会拥有一部智能手机。在我从事人工智能领域之初跟我说这个数字,告诉我们说,我们手中有一个类似于超级计算机的存在,我是不相信的。但实际上计算机已经改变了我们的生活方式,而且人和人之间的联系方式不再是阻碍我们发展的障碍。包括我们之前所说的数字鸿沟,让数字技术覆盖到更多的人。我们在现实生活中也需要解决这个问题,在世界任何地方都会如此,希望电话和相应的数字技术,不管是发短信还是打电话都可以覆盖到世界上各个角落。 

当然,我们目前还面临着重大的挑战,也就是每个人说的语言是不一样的。比如说我来到中国,我说英语,大家说汉语,还需要翻译。这不仅是两个国家之间的,世界上任何国家不同语言的人遇到一起都会存在这样的问题,大家都喜欢说自己的母语,因为它代表了自己的身份、背景和一些文化习俗,这样交流起来就会产生问题。 

在欧洲或者一些其他的国家,总会有人问,我们为什么都要学英语?为什么每个人都要学英语?尤其在中国,好像每个人都说英语是疯狂的。但是在欧洲我们有23种官方英语,所以让大家都说英语是不现实的,只有30%-40%的欧洲人可以说比较好的英语,进行双语之间的交流,这并不是一个比较实际的解决方案,也不是我们想要有的解决方案,我们需要保持语言的多样性。 

欧洲议会是怎么做的?在欧洲议会当中,许多人都会使用不同的语言去工作,每一个议会成员都可以说自己国家的语言,他们所说的语言都会被进行同声翻译。所以欧洲议会需要花费很多的经费来邀请人进行同声传译。所以在议会里可能有23个同传箱,一个发言人,他上台以后,他的发言会被翻译成23种语言。对于欧洲而言,想做到双语之间的交流需要花费很大的努力,因为有23种官方的语言。 

所以想让我们更好的嫁接这样的语言鸿沟需要耗费很多的努力。 

希望通过我的演讲帮助我们进一步看未来的情况,我们最终的梦想是希望可以实现真正的语言翻译。我最希望的是我进入另一种文化或者另一种国家的时候,可以自由的沟通,好像没有任何的语言障碍。在我看来,语言透明性就是说我们需要进行一个真正的整合,任何人、任何时间都可以非常自由的在任何国家根据任何的话题进行非常自由的沟通、交流、互动,并且可以自由的进行贸易、居住,不存在任何的语言障碍。我们希望去到任何国家都不会发现有任何的语言障碍,整个的沟通非常通畅。所以,我们不应当被语言障碍所阻碍。 

有的时候,可能我们去了别的国家,我们可能带了一个随从的翻译,可能我们可以进行非常顺畅的沟通,但我们需要花很多的成本和钱。就算这样做,还需要第三方进行翻译,很麻烦。这时候我们就考虑,技术是否可以为我们提供一个解决方案?接下来我会为大家介绍我们正在制定的解决方案。 

我针对这个问题有很长的时间,七十年代我还在麻省理工大学时就开始研究这个问题,当时我的教授并不是觉得我很疯狂,他一直鼓励我说继续你的研究。但我们还是发现,这个问题真的非常困难,我花费了一生的时间,希望针对这个问题找到解决的办法。 

另外一个问题,我们现在已经有了机器翻译,除了机器翻译之外,我们还需要什么其他的东西来解决这个问题?我们有很多的专家和语言技术人员,大家都会问,为什么机器翻译这么困难?实际上机器翻译就是人工智能和计算机科学的整合。我们现在在40多个领域已经有了信息理论方面的研究,我们当时一直希望可以打造出一个好用的机器翻译,这是一个非常困难的研究主题,我们已经取得了非常大的进步,现在我们已经可以使用机器翻译了。 

为什么整个过程如此困难?我们为什么花费半个世纪的时间才真正取得如此多的进步?这是由于语言的模糊性,语言是比较模糊的,尤其是在中文当中。因为在中文当中会有很多隐讳表达,这就为我们的语言处理带来很多的困难。比如我用一个英文句子说“Give me a new display”,但可能大家听不清楚,会听成“Give me a nudist play”。我们对语言的理解完全取决于我们的语境,不同的语境当中的意义不同。语言学家乔穆斯基(音)很早之前进行了语言的研究,比如说“Time flies like an arrow”可以有六个解说。 

在不同的语境里所需要翻译的语言也是不同的。所有的这些问题都会影响到翻译的准确性,这就是语言的模糊性。 

除此之外,语言未必都是文字性质的,当我们说翻译时指的是笔译,但就算是文字形式的语言也是非常复杂的。我们有不同的字体、不同的文本形式以及不同的表达方式等。 

我在Facebook工作的时候,主要是语言技术小组的主管。我们当时发现人们在发信息时,他们所打的文字非常复杂。比如我们在微信当中聊天,可以看到人们会做一些很有趣的事情。比如他们会说哈哈哈,或者会打Happy birthday,所以在文本当中也嵌杂了我们的情绪,不仅仅是单独的字,在文本当中它所包含的信息要更多,这仅仅是文本而已。 

但在真实的世界里,我们不会仅仅是写字或者使用文件、发信息,我们大部分的时间和别人互动是通过语言的。我们会通过另一个渠道,也就是话语来进行交流,我们可以打电话、面对面交流,或者听一些讲座、演讲。 

当我们在旅行的时候,比如我们来到中国,对于我们来说很难知道道路上的标识是什么意思,因为道路上标识的字是不一样的,你去其他的国家也会遇到这样的问题,因为你读不懂路标。这样使得我们的沟通非常困难。 

语言在另一方面非常复杂,比如我们可以在白板上写字,可以在路标上写字,甚至是嘴唇的活动,都会无意识的看到人们在说话时嘴唇的活动,尤其是我们在聚会比较嘈杂的环境里,会注意人说话时嘴唇的活动。或者身体的语言、面部的表情等等,这个时候我们会看到很多人肢体的表达或者面部的表情,通过面部表情或者肢体语言,也可以进一步了解这个人在说什么或者他们想表达的情绪是什么样的。通过这样的方法,我们可能只需要摆出不同的面部表情就可以表达出很多的信息。 

所以我们面临的问题,先是语言的模糊性,会给我们带来很多的不确定性。我们有多模态的混合,我们不光有文本性的语言,还有真正的说话、语音等等。所以需要有一定的机制可以提取出我们所表达的信息,然后将它进行翻译。所以机器翻译至关重要。因为我们在人类的表达当中会有各种表达方式,它所包含的信息非常多,所以对我们而言,提取这些信息需要大量的工作。我们怎么做? 

八十年代时我们开始研究神经网络,因为我认为神经网络可以帮助我们解决沟通上的问题,因为我们需要一个统计学的机制建模语言的不确定性。但是我们还是不太了解应该如何表达我们语言当中所包含的这些信息。由此我们打造出了这样的神经网络,但通过这样的神经网络给了我们非线性的分类器并且可以好的帮助我们了解语言当中所包含的信息。 

在卡内基梅隆有很多的教授大家一起合作,一起开发出了这个神经网络。非常开心看到我们现在所取得的成就。我当时和杰弗瑞聊天时发现,这个模型本身是无法自己来解决语言或者图像问题的,因为我们并不知道真实的信号,这个事情是在什么时候发生的,首先需要了解到这个语言是从哪里发出来的,然后才能对它进行分类。 

所以我们面临着几个问题:

第一,先区分。

第二,再分类。

但这两个事情放到一起,整个的过程是非常困难的。 

大家现在又把神经网络叫做神经卷积网络(CNN),我们可以通过不同的方式训练我们的网络,这样它就可以在不需要知道关键信息在哪里的同时对信息进行分类。由于时间关系,不具体讲。但我们可以看到,它会接收到信号,从信号当中提取出关键的特征。我们的时间信号可以是一维的,但我们也会有二维的,比如说语言,既有序列,也有时间。这个时候就需要几个分类器同时进行分析和分类。这些信号是不断变化的,而且它们也是卷积的。 

我们的图象处理社群也意识到了积极学习的重要性,不仅仅是在语言当中。在语言当中需要知道信号是什么,可能我们不需要知道它的具体地点在哪里,但在图像处理方面也有同样的问题。比如对于人物的识别,也需要有这样的技术,而且这个技术在八十年代到九十年代时期就已经出现。 

一开始人们还是使用统计学的系统,我们基本上花了20-30年的时间进行更多的运算,让人们不断的进行迭代。 

在我有生之年,我们整个的计算能力提升了将近10亿倍,这也使得我们现在可以做到很多以前做不到的事情。我们的内存也是一个问题,内存现在有了一个大幅度的爆炸,我们可以储存的东西越来越多,现在我们可以用更多的数据训练我们的语言系统,而且我们所使用的数据量可能比人一生所说的东西还要多。 

我们现在有很好的运算能力、很好的储存能力、很好的处理能力,这个时候我们需要训练更大型的网络。人们通过这样的训练,在二十年之后取得非常大的进步,性能有很大的提升。 

现在我们的模型更大,TDN模型的数据和连接已经是过去的100万倍。微软的网络已经可以达到语言表达的能力。现在我们可以非常成功的进行图像的区分,在AlphaGo里也使用了增强学习,这是一个比较老的技术。还有深层群、神经网络来实现了它现在的成就。现在对于这些网络的研究,我们可以知道,比如对于翻译来说的学习过程是什么。 

在早期时我就发现,我们如果训练网络学习相应的任务和解决方法时,有很多隐形的知识被我们的系统学习到。我们其实并没有特定的去标明,比如每一个神经元需要学习哪些内容,但是通过对翻译的训练和学习,整个可以把任务完成到我们之前没有预想到的水平。比如关于一些语音音节,这些深层的理解对于语音和文本的识别是非常重要的。可以看神经元的网络对于图片和颜色的识别。 

另外一个网络递归神经网络,九十年代开始就进行了大量的调研,我们发现递归神经网络给我们带来很大的好处,可以帮助系统训练它记忆过去发生的一些事情。这些我们可以通过编译和解译进行整体的训练。 

因为整个项目范围还非常小,所以发展起来要20-30年的时间,才能够搭建出来一个成功的神经网络和机器翻译。 

给大家介绍几个我们现有的产品和应用,关于如何让整个世界变得语言透明,让大家没有沟通上的障碍。 

第一,交替传译。也是我们最开始就研究的话题。80年代末到90年代初的时候,我们希望通过视频电话的研究方式做相应的翻译程式。当然,当时整个的语料库还非常小,我们花了大概十几年的时间,才开发出来真正手机端翻译的软件。而且我们可以把它变得更加便捷、简易。 

在2009年时,我们还没有听过类似的应用,但我们在苹果商店做了一个小的广告,当时推出了这样非常独特的应用,后来我们公司被Face book收购,我们后来在Face book进行语言工作的部署。 

我们还做了一些人道主义和人性化的设计,包括我们和泰国、洪都拉斯一起合作,希望能够在医疗体系中提供一些翻译的服务,包括医生和患者沟通。 

还在整个救援项目中做一些尝试,比如阿拉伯国家的地区会有一定的难民逃到德国,希望在这个过程中帮助他们翻译。 

我们还有其他领域的尝试,不是两个人之间的对话,而是一种单一讲授的方式。通常只有一种讲者,比如在电视的新闻广播或者讲课的讲座中,我们可以把这个场景想象成在院校中的讲授。比如我们如果去到德国的实验室或者教室,可能感觉就是一段乱码的方式,因为我们听不懂德文。但如果有了翻译的系统,可以帮助我们更好的聆听讲者的学习。 

这个系统还自动插入了一些标点符号(如逗号、句号),不用猜句子的断句,而且还有首字母大写的功能。还有一些坠语或者不必要的嗯、啊词语被删掉,帮助我们更好的理解。

 

第二,欧洲议会中自动翻译的系统。欧洲议会对于翻译来说是最不人性化的翻译环境,因为作为人类的译员来说,他们已经做的非常好,但我们还是希望有更好的尝试。我们当时和议会的翻译系统做了相应的尝试,看能不能帮助我们的人类译员更好的翻译。欧洲是非常大的区域,有多种官方的语言,所以我们当时做了现场的尝试,希望能够帮助现场的译员。有一些帮助是间接的,因为我们知道,这样很好的翻译,他们本身已经具备了工作的能力,所以我们只是希望能够给他们提供一些术语或者很难记下来的词语的支持,而不是完全提供机器翻译。但像投票系统,对于译员来他们觉得整个过程非常无聊,这种情况下可以用机器帮助他们。 

给大家强调一些词语本身的问题以及我们如何处理术语、人名缩写或者外来词汇,比如德国讲座中,虽然说是德语,但可能会引入一些英文的词语,而且可能还会有一些译入语。我们还会保证整个翻译文本是可读的,解决语言的长尾性。包括如何通过现有集中语言的分析,逐渐扩张到对所有语言都可以进行分析和翻译。 

如果我们真的能够实现这一点,我们需要解决语言本身不止是语音本身,还有很多社交属性和文化背景。不管是公式还是其他各种各样的文本,我们都可以识别并解读,或者社交媒体上的一些推文、路标。我们之前做了一个原形产品,可以通过手机拍照识别来帮助我们知道这个路标上的信息是什么。 

还有一些带有情绪的演讲。我们知道人们在讲话时总是带有情感,我们也希望把这个实验和最终的应用推向一个真正自然开放的环境,包括这个演讲的对象是谁,这样可以选择相应的词语,比如谁在对谁演讲,讲者和听众分别是谁,这也是需要我们解决的问题。我们这里有注意力追踪、人脸识别以及整个观众注意力追踪点,等于我们为语言加入了社交和文化的属性。 

我们最终的梦想是希望在未来,我们在开会的时候能够讲自己的母语,听到的也是自己的母语。但是又可以互相沟通、直接讲述,甚至可以做鬼脸,但整个翻译的过程是无声的。所以我们能够真正觉得,我们是融入于当下的环境,不会想要在过程中查字典或者有任何的困难,我们希望这个交流的环境是自然无缝衔接的,这样才能真正实现全球化,共同发展。 

我们现在的确做了很多的研究,但最终达到这个目的还有漫长的一段旅途要走,也希望在未来我们能够通过人工智能真正实现无缝理解,谢谢! 

11.jpg

(本报告根据速记整理)

CAAI原创 丨 作者 Alexander Waibel 教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会