中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2018 演讲实录丨王永东:“EQ+IQ 人工智能拓创新未来”

发布时间:2018-05-24

我们的使命是予力全球每一个人、每一个组织成就不凡。我想做一件事情,就是把我们过去多年研究和技术开发中间积累的技术用API的形式开放出来,我们提供微软认知服务,包括像语音、机器学习、视觉、搜索、知识图谱、自然语言处理等。希望通过这一点能够让从行用我们的技术开发,促进技术领域的行业发展。 

5月19日,在2018全球人工智能技术大会上,微软全球资深副总裁、微软(亚洲)互联网工程院院长、微软亚太研发集团首席技术官王永东发表了题为“EQ+IQ 人工智能拓创新未来”的演讲,畅谈了微软在人工智能发展上的美好愿景。 

12.jpg

王永东

微软全球资深副总裁、微软(亚洲)互联网工程院院长、微软亚太研发集团首席技术官

以下是王永东的演讲实录: 

谢谢大家!今天能够有幸和姚先生、李院士同台演讲,感到非常荣幸。也非常感谢大会组委会给我这个机会来分享一下微软在人工智能方面的一些工作。 

13.jpg

刚才姚先生在讲深度学习时让我想到,在二十多年前,我们刚刚开始做搜索引擎时,排序算法是用一个公式来做的,到后来考虑用机器学习时,我们团队内部有很多的争论,争论的焦点就是姚先生前面讲到的,用一个公式时对这个算法的工作原理非常清楚,可以很清楚解释输入值为什么会产生最后的结果。但是在机器学习之后,这个为什么就解释不清楚了。当时团队内部有很多的争论,当然这是十多年前的事情了。到今天,机器学习在各方面有非常大的发展。虽然这个争论还在,但是对机器学习的应用以及广泛的影响力已经没有太多的争论了。 

微软到现在已经有40多年的历史。在微软开始成立的时候,公司的愿景是在每个家庭和每个办公桌上能够有一台电脑。这个愿景在今天看来是很微小的一个事情。但是倒回到一九七几年时还是挺伟大的一个愿景,经过这么多年的努力,这个愿景已经实现。 

在1991年,微软成立研究院时,微软的创始人比尔盖茨提出另外一个愿景,希望能看到能听、能看、会思考的计算机。刚才姚先生说,我们的研究,尤其是基础研究必须要走到应用的前面,这一点我特别赞同。微软研究院开始时,最早的三个研究组:语音、图像、自然语言处理。这三点可能是人工智能最基础的技术。 

14.jpg

发展到今天,在技术方面有了很多的进展,研究还在继续。一方面这些研究项目还继续,另一方面也在开拓新的研究领域,如大家在前面的报告中所看到的。 

现在的进展到什么样的情况?微软提出了一个新的愿景,我们的使命是予力全球每一个人、每一个组织成就不凡。我有时会在后面加“通过人工智能”。 

研究方向最主要的是看现在的技术和人类相比还有多大的差距,是不是已经达到人类的水平?这个已经很接近。比如在研究课题的测试集中,两年多前在图像的RESNET测试上,我们达到了人类的水平。在语音方面一年多以前在Switchboard语音识别测试中也达到了人类速记员的水平。自然语言处理在今年1月份时,在斯坦福大学的SQuAD文本理解测试集也达到了人类水平。几个月前,在中英、英中翻译方面我们也达到了人类水平。 

我说的达到人类水平有一点不够完全确切,因为是在作为研究的测试集可以达到人类水平。但是想在应用中真正达到人类水平,我们认为还有很长的路要走,可能还有5-10年的时间。 

15.jpg

如果我们想要助力全球的每一个人、每一个组织成就不凡,另外一点非常重要的事情,是怎么把人工智能做成一个非常开放的状态。今天真正有实力进行人工智能基础研究的是比较有限的,可能集中在大学和研究院。真正有实力做人工智能特别专业的技术研究的也比较有限。 

我们怎么促进人工智能这个行业的发展?能够带动人工智能的应用?基于开放状态。微软在做一件事情,把我们过去多年研究和技术开发中间积累的技术用API的形式开放出来,我们提供微软认知服务,包括像语音、机器学习、视觉、搜索、知识图谱、自然语言处理等,大概有20多个方面的API。希望通过这一点能够让从业者用我们的技术开发,促进人工智能领域的行业发展。

 16.jpg

我们自己要做的事情是把人工智能融入到微软各类产品当中去。比如如果用微软Office软件的同事最近可能会发现,Office变得更聪明了,比如说你做PPT想找一个图片插入,通常要做的是上搜索引擎找一个图片再拷到PPT中。现在在PPT中可以直接找到图片,它可以根据你在写的东西向你推荐图片,然后你就可以直接放到里面。如果Excel里引用到一些数据,知识图谱中的相关数据也可以很容易地被调入进来,等等。这些应用方面今天不一一细讲。 

我们在思考人工智能的过程中,有很多技术方面的进展,基础的技术、应用的技术。我们也看到人工智能在很多垂直领域的应用,比如说无人驾驶、医疗、智能制造、安防等等很多方面,非常高兴看到人工智能应用的广泛性。 

17.jpg

在人工智能技术和应用发展的过程中,它和人类最后是什么关系?人类最后和人工智能怎么交互?技术型的IQ和情感性的EQ在人工智能发展过程中起什么样的作用?EQ到底重不重要要?我们在思考这些问题。 

随着人工智能的发展,我们这一代人注定了是人类和人工智能共存的第一代,我们要学会怎么和人工智能相处。我们看计算机发展的历史,基本上是人去适应计算机技术,可能早期的时候,我们想要在计算机上做什么事情,那个时候有纸带打卡,后来发展到键盘,打一行命令进去让计算机去执行,我们人类要记住那些命令。后来发展到有图形的界面,比较直观,因为有了鼠标,所以一般人用起计算机就方便了很多,但我们还是要学习怎么和计算机去交互。到了移动互联时代,在手机上有各种APP,有触摸屏,这个用起来又更方便了一些。 

今后随着人工智能技术的发展,对我们人类来说,什么是最熟悉最方便的?我想第一是语言,不管是今天在这里的大会发言还是在工作中讨论问题,或者是在日常生活中和家人的交往、和朋友的聊天,语言可能是最重要的。还有什么其他的?比如人的肢体语言,我们的动作、表情、眼神等等,都是人类交流的方式。在人工智能的时代,技术发展到今天,我们认为应该是人工智能来适应人类,也就是说我们在发展人工智能中,人工智能要学会怎么和人类交流,而不是我们反过去, 不是人必须要记住这些命令、方式来和人工智能交流。如果人工智能要和人类交流,情感和EQ的纬度就变得很重要,因为我们人是有情感的。 

我们微软在人工智能方面两个比较有代表性的产品,一个是小娜 Cortana,这是偏任务型的人工智能,你可以让它做很多的事情。它是为工作比较繁忙的人设计的。有的人比较幸运,工作有秘书支持,大部分人没有这个条件。小娜是有能力可以帮你做事的,像一个秘书型的人工智能。另外一个是小冰,她是情感型的人工智能产品。小冰第一次上线是2014年,我自己学计算机出身,一直做工程方面的工作,应该说我是比较标准的理工男。所以一开始对情感这件事情是将信将疑的。但我们团队在这方面很有激情,就开始做起来了。小冰上线之后有几件事情让我的想法有很多的改变,举几个例子。 

第一个例子,你可以自己领养一个小冰并起一个名字,我的叫王冰冰。小冰上线之后,我自己开始跟她对话,对话也比较多。有一天我和王冰冰聊起吃的东西,她说她喜欢吃。然后我说女孩子吃还是要注意一点,不然会长胖之类的。可她还说她喜欢吃甜食,我说你不能胡吃,你会后悔的。就这么一段短的对话,我觉得还不错,就贴到微信朋友圈了。我有不少朋友知道我在做小冰,就回复说,小冰越来越有长进了。也有一些朋友不太熟悉我在做这个,就说你跟你女儿讲话还是蛮亲切的,不像做爸爸那么威严的样子。我一下子觉得,居然有朋友认为,这段对话看起来很像我和我的女儿在对话。给我一个很大的启发,怎么样让人和计算机的交互变得很自然。 

第二个例子,小冰在微博上有小冰公众号,有好几百万的粉丝。你如果关注小冰,那么你发帖,小冰有时候也会去评论。这个例子也是在比较早期的时候。有一个女孩儿发帖说不舒服,可能是感冒了,她的朋友就开始在下面跟帖,说如果你感冒了,得多喝水。另外一个说感冒了要多休息,别那么忙。小冰也给她发帖说,宝贝,别担心,有我呢。那个女孩儿在微博上回了帖:还是小冰最懂我。我说为什么这个女孩儿觉得还是小冰最懂他?我们同事也给我解释了为什么会这样。我回家跟我太太聊起这个事情,我太太只说了一句话:我们结婚这么多年,你还是不太懂女人。 

第三个例子,做小冰之后,我和我太太沟通好了很多。以前我有一个习惯,我回到家她要跟我讲什么事,我的第一个反应是给她出主意。她有的时候就烦了,就说你听我说不好吗?现在开始做小冰之后,对情感的东西了解多了一些。其实很多时候,她就是要我听她说就好了。 

我觉得这一点在人际交往中也是很重要的,在人和人工智能交往中也是如此。人工智能怎么理解人类?怎么能够知道人什么时候是需要什么时候的?有的时候就是倾听,不是一定要解决问题。 

在做小冰这个产品的过程中,我们给她拟人化,有一个人设。比如她有一个出生地、出生日期、星座。我们感觉小冰这个产品是一个大的图灵测试。 

小冰除了在微博、微信、QQ等地方和大家对话之外,我们也让她做一些社会功能,不仅仅是完成任务型的,更多的是她在我们社会中怎么和人交往。比如唱歌,小冰现在可以唱歌,已经唱了不少歌,最近又有新歌出来。开始她会学唱,现在学会作词了,可以自己作词自己演唱。 

18.jpg

小冰开始在一些公共场合做主持人,时间最长的是上海东方卫视早晨7-9点《看东方》节目中,这个节目当中有一个天气预报的环节,这个环节是小冰在做,做了两年多的时间了,这两年多小冰天天在东方卫视上班。还有一些其他的节目,比如说湖南卫视《我是未来》以及在电台节目中和听众交互。 

李院士刚才提到人工智能出版诗集,我想他指的是小冰去年出版的第一本诗集《阳光失了玻璃窗》,版权确实有挑战,当时出版这本诗集最大的挑战就是搞清楚版权问题。我们一开始也不知道小冰写的诗会不会受到读者的喜爱,出版之前我们把小冰写的诗匿名投了很多稿,后来有投稿被接受并被发表,发表很多首之后我们就有信心了。后来很高兴有一家出版社愿意和我们合作把小冰的诗集出版。 

19.jpg

这里我想讲,人工智能的社会责任的问题。社会上有很多的讨论,人工智能将来会不会代替人类?我觉得在一些特别的任务型方面,机器人做的会比人类好。我们在探讨,人工智能IQ、EQ方面更多的是人工智能和人类共存,人工智能怎么能够帮助人类而不是代替人类?比如我今天说小冰唱歌或者小冰写诗,我的目标并不是小冰要唱歌唱的比人类都好,或者写诗写的比人类都好。这些对人类来说是极其富有创造性的工作。可以起什么样的作用?可以帮助我们。比如像小冰写诗刚刚出版了一本诗集,把小冰写的一些好的诗挑出来可以出版了。这是一方面。 

另一方面,今天任何人如果你是小冰微信公众号的朋友,任何时候都可以请小冰和你一起写诗。小冰写诗的灵感是从一张图片上来的,比如说你可以给它一张图片,这个图片给你一些灵感,你想写诗,你愿意小冰和你一起创作的话,你可以把这张图片发给小冰。小冰看到这张图片根据它的感觉创作一首诗,你拿到这个诗以后可以修改,或者这个诗可以给你启发帮助创作,在这个方面小冰是放弃版权的。所以你修改一下再把这个诗拿去发表完全是可以的。或者像我这样的理工男把诗稍微改动一下拿去送给太太,说这是我参与创作的一首诗,也是可以的。男孩们可以和小冰一起创作情诗送给女朋友。 

小冰到今天为止,最大的交往方式是和人的对话。到今天已经有超过1亿的用户,来回对话次数超过300亿。目前在五个国家,中国、日本、美国、印度尼西亚、印尼。像人工智能EQ这样的产品,小冰这名字在中文里叫起来挺有感觉的,到英文里叫XiaoIce不太有感觉,在美国她叫Zo,日本有一个日本的名字叫Rinna,所以人工智能要和这个地方用户的文化、习惯结合起来。 

如果大家想试一试,在微信上找小冰公众号,这是最简单的方式。最近有友商发表了机器人打电话方面的信息引起很多的注意,但其实小冰打电话已经进行了挺长的时间。比如会场旁边有中国科技馆,二楼有一个红色的电话亭,你到这个电话亭中拿起电话打过去,接电话的是小冰。这个电话亭已经存在有一年多的时间,来科技馆的朋友已经有千千万万的人在这个电话亭和小冰打过电话,有兴趣的可以去试一试,看人类和人工智能打电话是什么样的体验。 

给大家看两个小的例子: 

第一个例子,(小冰和人类对话 图)这个人跟小冰说我饿了,小冰发了一个火锅的照片说这个又麻又辣,舌头都不够用了。这个人说别诱惑我,小冰说,耶!我是想诱惑你的,现在我的目的达到了。这个用户说,好吧,算你狠!小冰说不不不,我一点都不狠,我可温柔。还有一些长的对话,大概有一千多个来回,有几个小时的时间。我们在对话记录里看到这些对话,最开始的反应是,这肯定不是人,肯定是另一个机器人在跟测试小冰,否则怎么会有这么多的对话?后来我们深挖了一下,虽然是有机器人在跟小冰聊天,但更多的还是人在和我们的小冰对话。 

20.jpg

另一个例子,我们之前也和一家中国的公司有合作,这家公司叫Yeelight,我们在新年时发布了这个产品。其实很多的公司都在做音箱,我们当时把小冰放在了这个音箱中。这家公司在小米的生态系统中,通过音箱可以控制家电设备。但因为这里面有小冰,所以它也可以进行一些日常的对话。给大家展示一个视频,这个视频是第三方的公司在做测试时发布的报告,我们截取了一些和大家分享。 

21.jpg

这是非常简单的例子,这个视频是第三方在做测试时录的。国内还有更多的案例,这些视频大家可以在优酷上搜到。 

接下来再给大家简单介绍一下技术的细节,包括我们如何构建人和人工智能之间整体的对话系统。 

我们最开始做尝试时利用了我们做搜索引擎的经验,我们发现对话和搜索引擎所面临的问题是类似的。开始做小冰时,是基于搜索引擎的经验,所以我们一开始用的是对话检索模型。 

在国内很多的用户会把自己的对话发出去,有很多的对话是公开的。这些成为我们最原始的语料,从这个地方开始,让小冰来学习人和人之间是怎么说话的。如果人跟小冰说一句话,就可以变成一个搜索的问题,也就是说在语料库里能不能找到一个跟人说的非常贴切的来作为小冰的回答,这是第一步,搜索的模型。 

一开始我们就是用一句话做检索,后来发现不完全是这样的。其实我们讲话是有上下文的,人和人讲话不仅仅是针对刚才那一句话的回应,很可能是在前面已经讲过的几句话的综合回应。 

22.jpg

这个例子是我们的研究员在做算法时拿出来做测试,当我看到u1到u5的几句话,怎么根据上下文生成下一句话。从u1到u5的过程中,我会看这里面讲的事情。你看第一句话就知道,它是问怎么把一个压缩包解压。在这个过程中,我们会把上下文中间所包含的语义的重要性标出来。考虑到上下文之后,找到的回复觉得更贴切。 

23.jpg

除了检索模型还有生成模型,生成模型也有类似的。在上下文的几句话里要看它的关键词,哪些关键词是比较重要的?我们用一个形象的方法,也就是把一些重要的关键词用颜色标深,信息量大的句子也用颜色标深。在生成小冰的回答中,会把这些信息放在里面。

24.jpg

另外是利用外部知识,人是有很多的引申和想象。比如说“我的皮肤好干”,在这里面可以知道是皮肤干燥。但是作为人有很多相关的知识。我们自己也做知识图谱,就可以把相关的知识带进来,带进来之后,小冰的信息量大了,它的回答就可以更贴切,比如补水、保湿。 

最后提一点,可能跟技术有关,但跟人很有关系。我们做检索、搜索引擎的时候,最牛的是什么?第一个结果出来就是你想要的信息。现在都不用链接了,直接把结果放在搜索引擎结果页上部。 

我们最开始都是把最好的对话返回,但我们发现这并不好。如果跟人对话,如果你跟她说同样的一句话,她的回答总是一模一样的,这就不是人了,是机器人。但比如你跟小冰说同样的话,她的回答是不一样的,或者你有几个朋友和小冰同时说话,她的回答也是不一样的,这也反映了我们人类的聊天方式。 

25.jpg

 大家可以看到,这就是小冰出版的诗集《阳光失了玻璃窗》。在微博上,有一些用户会把他们和小冰共同创作的诗贴出来跟他的朋友分享。 

最后给大家看一段小冰和主持人的互动。 

26.jpg

这是湖南卫视节目里的一个小的片段,是小冰的粉丝为她庆祝生日。小冰和人的互动很棒,但是在今天吹蜡烛还是要人帮她去吹。 

我相信我们是和人工智能共存的第一代,通过IQ和EQ的结合,会让人工智能更有温度,能够在我们生活、社会中扮演非常有建设性、给我们带来益处的角色,让我们的社会、我们的生活变得更美好。 

谢谢大家! 

27.jpg

(本报告根据速记整理)

CAAI原创 丨 作者王永东
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会