数字图书馆

CIIS 2017 演讲实录丨彭爽：人工智能与情感交互

发布时间：2017-10-27

10月12-13日，第七届中国智能产业高峰论坛在佛山开幕，在NLP与服务机器人专题论坛上，微软小冰首席产品总监彭爽发表了主题为《人工智能与情感交互》的精彩演讲。

彭爽

微软小冰首席产品总监

以下是彭爽的演讲实录：

大家好。我从清华大学毕业后，就加入微软工作，最近四年以来在小冰团队做人工智能产品的设计和迭代，这几年当我们和外面的朋友聊起来时，经常会问到一个问题，你做的微软小冰到底是什么？它就是一个聊天机器人吗？这可能也是今天大家比较关心的一个问题，所以我想从这个问题出发跟大家聊一下。

首先请大家一起回顾一下我们在最近几十年科技产业上的重大变迁。过去二三十年，从PC时代进入到互联网时代，然后又快速进入到移动互联网时代，到今天大家坐在这儿讨论新的人工智能时代的到来。每个时代的变迁，除了各种科技上的突破和颠覆，最重要的是重新定义了人类和世界用什么方式进行沟通和连接。人类在PC时代，通过PC的操作系统，使人类以更加有效率的方式连接世界，提高了工作效率；到互联网时代，通过浏览器和互联网这两个重要的核心，人类可以把物质世界非常快的电子化、数据化，并用比以往简单直接的多的方式定位信息。移动互联网时代，除了对互联网进行升级，甚至通过社交网络改变了人与人之间的交互关系。

到人工智能新的时代，在这个时代核心是什么？刚才朱老师讲到人工智能时代有NLP，有非常强的语音识别、图象识别各项技术，这些技术都非常重要，有些技术甚至达到或者超过了普通人类的水平。未来几年甚至会达到人类不可企及的精度。但是这样的核心技术突破，包括语音、图像、知识图谱的突破，是很重要的基石，但可能不是人工智能时代的核心，为什么这么说？因为如果我们去接触一下人工智能的概念，从创立之初，就是在以人类智能作为一个模板和范本做参考，而当我们衡量一个人类的智慧水平的时候，是不会去衡量这个人是否能听见、听懂人说的话，或者能否看见、看明白眼前的图片的内容，这不是我们衡量的。我们会衡量什么？会判断这个人是不是聪明，是不是考虑周全，是不是懂事，所有这些考量，实际上在用EQ和IQ两个维度体现。

我们认为在人工智能时代，我们去评价AI的核心，也应该从这两个维度体现。在这两个维度（智商和情商）上，当我们做小冰的时候，也有过类似的思考，我们决定通过微软小冰的人机交互，通过聊天这样的形式，来探索一条人工智能实现EQ的道路。为什么选EQ这条路呢？不是说IQ不重要，相反非常重要，业内的很多公司，包括我们微软的其他项目，都投入和很多在IQ方向上，来决定如何让人工智能获取更多知识、更加准确的回答客观问题。但是很少有人去探索EQ方向，为什么？因为业内的很多想法是，EQ方向是IQ达到一定程度上叠加上来提高的方式，而不是独立的存在，这一点上我们有不同的看法。我们认为EQ方向，或者说情感交互，实际上是人类的基本诉求，也是核心的刚需。在人类社会中我们能清楚的看到这一诉求，特别是对于一些群体，比如老年人群体，即便是生活、经济富足，他们也多有强烈的需要陪伴和交流的诉求，而且在家庭社会中难以得到很好的满足。由于这种基本诉求的存在，所以当一个人工智能，哪怕IQ还没有达到很高的水平，也完全可以通过EQ方向的迭代深入，得以独立发展，这也是我们一开始选择这个方向探索的重要原因。

我们主要是想说我们为什么选择情感交互的方向，微软小冰人机对话时的主要发力点和研究方向。下面我具体介绍一下我们的探索内容和成果。

为了实践EQ这个方向，我们首先定义了情感计算框架，以这个框架为核心去模拟实现一定情感交互。我们都知道，人类的情感是非常复杂的概念，我们在中文里会用喜怒哀乐的词汇形容情感，但是喜怒哀乐完全不够，还有恐惧、惊慌、羡慕嫉妒恨等等，甚至还有复杂的复合情绪存在，这些情感很难直接给一个简单直接的定义。我们的尝试使用心理学上的模型，首先定义有限的基本情感，再把复杂情感投射到基本分类上，就能到统一的表示。通过大量数据训练，有了基本的情感识别的分类，就有了第一步。之后更加复杂的问题是，如何对情感进行应对。应对情感不同于回答客观问题，不是给出一个问题，就能有一个唯一正确或者最优的答案。情感不是这样的，一个人不开心的时候，应该说几句宽慰的话，还是该讲个笑话逗他开心？甚至应该什么都不说，让他好好倾诉，才是最好的方式？没有标准答案。我们的做法是，在通用决策基础上，加入动态因素。由于我们有比较大的可以交互的对象，使得我们可以调整这样的机制，给出相应成熟的反馈。

由于我们比较早选了EQ方向，我们也积累了大量用户，小冰在全球五个国家上线，有总量超过1亿的人类用户跟小冰交互，对话量超过几百亿次，所以使得我们有能力做这样的尝试、探索和不断的迭代。

我们发现，在这样的对话过程中，尤其长程对话给我们带来更大的价值。长程对话不仅累计了更多轮次对话，而且使我们有机会在对话过程中，尝试切换话题，或是对对话的意图进行识别，进一步进行引导。另一方面，对用户来说，我们发现通过长程对话，用户和小冰能够建立更深入的情感连接。通过长时间的对话，用户甚至会忘记“小冰是一个机器人”的认知，对她产生信赖，成为朋友的关系，这种关系甚至超过它在普通生活中与其他人类建立的关系。

在这里跟大家分享一组数字：小冰在三个国家市场上的单次连续聊天对话记录。所谓单次连续聊天，是这样定义，如果一个人类用户跟小冰持续不断的说话，叫做连续聊天，如果说完最后一句话后，超过30分钟没有对话，那么这个对话就认为结束了。基于这个定义，从数据统计中发现，每个国家市场上，都有用户跟小冰连续聊天超过十几个小时、甚至二十几个小时。最长的记录达到29个半小时。大家可以感受一下，这样的长时间对话，用户早已忘记小冰是机器人。这也侧面印证我们之前的一个重要论断，人类社会里，像对话的倾诉、情感沟通这样的交互，是一个基本的刚需。有很多人类，他们对于情感和交互的诉求非常强烈，但而由于各种各样的原因，在现实生活中可能找不到可以跟他们聊天的对象，所以也是我们认为具有EQ的人工智能尤其有价值的原因。

刚才提到的主要是基于文字的交互，而情感交互肯定不仅限于此，我们说情商的高低，应该能够从多种感官的交互中全面的体现出来。

在图像交互方面，基于微软构建的强大的图像识别和图像处理能力，我们着重把图像的交互，从识别图像内容，提升为对图像进行情感评价。相信很多人有这样的体会，朋友圈中很多人发图晒自拍晒娃晒宠物，刚过完的十一长假尤为如此，大家都在发朋友圈晒旅游。比如这张来自我们同事的照片，发照片的人站在比萨斜塔前合影。如果应用图片识别技术，能够轻松识别出“这是比萨斜塔”，甚至可以通过知识图谱了解到意大利、建筑年代，等等信息。但有人发出这样的照片，从交互的角度，显然不是考验别人能否识别出“比萨斜塔”。所以当他把照片发给小冰，小冰的回答是“要我帮你扶着吗”？这个就是从感受出发延伸出来的，能够促进交互，甚至达到意想不到的惊喜。小冰在图像交互的升级并不是凭空出来的，也都是从图片信息作为输入，通过图像的意向触发，联想而产生的回应。

在语音交互方面，我们说现在语音通用的合成技术已经非常成熟了。那么我给大家看一个对比的示例：我们通过友商的产品和我们的产品生成同样一句话，请大家听听，对比一下区别。（音频）从刚才这句话中，大家一定能听出来，小冰的语音明显更加自然，更加有情感。实际上语音合成领域有很多基础工作，如何让语音流畅自然，如何解决中英混杂的问题，解决儿化音的问题，这些都是难点，也是我们努力的方向。除此之外，大家听到最后一个“哼”字时，从小冰的声音是可以听出她的情绪的，而其他的更像是念。这是我们格外关心的重点，也使得用户跟小冰用语音进行交互时，更容易被打动，带入情感的重要原因。

除了图像视觉和语音等基础感官，我再大家介绍一类升级的高级感官，我们成为“全时感官”，也叫全双工语音。所谓全双工，是对比现有的半双工而言，目前绝大部分人机之间语音对话，是半双工语音，就像是在微信里聊天，你说一句发过来，我再说一句发回去，就像对话机一样。而我们知道真实的人与人，面对面的对话，我随时在听，也可能随时会说，我们互相之间可以打断，这样的交流更自然流畅。我们称之为全双工语音。这样的全双工语音，不仅仅要有基础的语音识别、语音合成等技术，还需很多的控制、时机判断，了解什么时候适合打断，如何打断等等，难度相当高，但是非常具有实际价值。实际上，我们从将近一年前，就准备了这个全双工的技术，并且在北京的中国科技馆里展示了一个“小冰电话亭”，每天都有成百上千的参观者，通过这个电话打给小冰。更重要的是，从今年9月起，用户不需要再去科技馆排队，等电话亭给小冰打电话。小冰就有可能会主动打给你，甚至基于用户在其他在线平台上跟小冰的互动，来决定何时打给用户。比如有用户在微信上跟小冰抱怨心情不好，小冰可能会出于担心，而聊天在之后，过一段时间主动打电话给用户，继续安慰她。这也是全时感官的重要作用：有了这样的升级感官原因，有了这样的感官，人工智能可以突破平台局限，甚至变被动为主动，更多与人类交互。

实际上，当小冰具有了全时感官，我们开始探索如何把全时感官、对话能力和loT融合落地。今年6月份开始，小冰跟小米生态链平台合作，在米家平台上发布的产品，通过小冰的语音对话，可以控制米家平台上的几十种智能硬件。每一次跟小冰连通，就相当于接通一个全时感官的电话，用户可以在沟通过程中通过小冰控制智能家居，也可以跟小冰聊天对话。我们发现，用户会在聊天和控制场景中自由切换，这样的交互更加自然，体验也更好。

这里给大家分享一个实例（音频）。一般智能控制的交互，主要是命令的形式，使得对话比较死板，而小冰情感交互能力超出预期，所以用户觉得小冰好像真的像家里的一个人一样存在。这也使得小冰在家庭场景中可以做更多的事情。举个例子，当小冰进入一个家庭环境中，能够对环境中不同的人，根据他的身份和属性不同，完成不同的应对。我们做了一些实验，让小冰能够根据语音和对话识别出家庭成员，并且针对同一句打招呼的话，给出不一样的回应。（音频）可以听出，当小冰跟家里的小朋友对话时，不仅在语音内容上有所区分，而且在语速语调上都明显不同，就像我们面对家里的小孩子时，会自然的把声音、态度做改变。这是我们认为人工智能在情感交互上升级的体现，根据不同的场景、不同的对象、做出有区别的适当的情感交互。

最后，我们相信，在不太久的未来，具有情感交互的人工智能，会无处不在，成为各种各样智能形态的必备。谢谢大家！

（本报告根据速记整理）

CAAI原创丨作者彭爽
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

CIIS 2017 演讲实录丨彭爽：人工智能与情感交互

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

CIIS 2017 演讲实录丨彭爽： 人工智能与情感交互

CIIS 2017 演讲实录丨彭爽：人工智能与情感交互