中国人工智能学会

Chinese Association for Artificial Intelligence

CIIS 2019 演讲实录丨何晓冬:多模态智能交互技术赋能机器人流程自动化

发布时间:2019-11-11

10月26日-27日,由陕西省委网信办、陕西省工业和信息化厅、陕西省科学技术厅指导,中国人工智能学会主办,西安市委网信办、西安市科学技术局、西安国家民用航天产业基地管理委员会、京东云共同承办的2019第九届中国智能产业高峰论坛在“硬科技之都”——西安举办。在26日的主论坛上,京东集团技术副总裁、AI 研究院常务副院长 IEEE/CAAI Fellow何晓冬为我们带来了题为“多模态智能交互技术赋能机器人流程自动化”的精彩演讲。

24-1.jpg

何晓冬

京东集团技术副总裁、AI 研究院常务副院长、 IEEE/CAAI Fellow

以下是何晓冬的演讲实录: 

今天主要讲多模态智能对话和交互基础技术,这个是很多产业的智能化升级的基础,这个产业的突破,会带来零售、金融、教育、市政、医疗等很多行业的体验突破。演讲分三个部分,包括多模态智能对话和交互基础技术,在京东客服场景的大规模落地案例,及通过建设通用智能对话与交互技术平台实现规模化产业化的推广。 

首先回顾多模态智能交互基础技术的突破,这种突破使得新一代人工智能技术在智能服务产业的突破成为可能。 

智能人机对话与交互,是在图灵测试时期提出的,通过人类和机器之间的对话和交流来判断机器是否具有智能。而最近一次的人工智能发展,是深度神经网络技术驱动的。神经网络技术的发展经过了很多阶段,80年代的时候就提出神经网络,那个时候由于没有足够的数据和计算力,效果不好,导致大家很快遗忘了神经网络,仅剩Geoff Hinton 等小部分人在坚持推进神经科学的网络。自2006年深度学习方法提出后,深度学习技术逐渐从学术界走向工业界,与应用结合。比如在2008年时,我们在NIPS举办了一个包括学术界和工业界人士的研讨会,邀请Hinton教授来做报告,让大家关注这个领域,希望把神经网络技术跟工业界的核心任务相结合。 

后来深度学习技术在多个人工智能核心领域相继取得突破,最早在语音识别领域,在2010年基于深度学习的模型在大词汇量语音识别任务上取得突破,并随后在2017年Switchborad测试集上精度达到人类的水平。在图像领域,深度学习模型2012年在大规模图像识别任务上取得突破,2015年在IMAGENET测试上精度达到人类水平。 

虽然语音和图像有很多突破,但智能人机对话与交互是更复杂的事情,很多时候不仅仅需要听觉和视觉,还需要多种认知能力,才能达到很好的交互能力。 

智能人机对话与交互是人工智能面向终端用户应用的终极挑战之一。对话是人类最基本的最重要的交流方式,新一代人机对话与交互技术将定义新一代的信息产业。 

回顾现状,一方面很多特定的领域,确实有很多人机交互对话的系统在工业界大规模使用,比如京东的智能客服、比如像微软小冰这样的情感陪护机器人,比如听歌听新闻听简单信息的亚马逊、百度、阿里等的智能音箱。但在开放领域,特别是高复杂、需要高可靠性的产业界的场景上,还是有很多问题,需要进一步努力。比如谷歌的DUPLEX电话AI一度被认为接近通过图灵测试,但尴尬的是,如《纽约时报》今年5月22日一篇报道指出,其系统打的电话中25%的是人工打出的,而系统自动打的电话中,有15%的需要人工干预。 

这个现状对我们给出了重要的机遇和挑战。智能机器人发展到今天这一步,我们不仅仅希望它能回答用户的问题,完成用户分配给它的任务,还希望机器人有一定的情感能力,能够理解用户的情绪,能更好的和用户产生交流。相信不久的将来我们会生活在AI无所不在,到处都是人工智能机器人或者人工智能助理的时代。 

多模态人机对话和交互技术,需要很多基础技术和能力,包括语言理解能力、语言生成的能力、多模态信息处理等等。这些技术和能力将驱动革命性的新应用。 

深度的多模态人机交互系统是什么概念呢?我们希望机器和人进行无障碍的非常自然的交流,表现出非常自然的交互式体验,为了达到这样一个体验,还有大量的工作需要做,比如需要多轮的对话管理,还希望在感知智能之上,有更多的情感智能,还要有认知智能,及推理和决策的智能等等。 

这里用一个典型的应用作为一个例子,比如是否可以做一个个性化的有情感的导购机器人?是否能给每一个顾客,每一件商品都打造一个导购助手,一方面精确理解用户的需求,另外一方面精确表达这个商品本身的特性、卖点,并给出真正打动人的推荐和解释,使最后的购物行为达到双赢。 

举个例子,客户去京东商城或者一个京东平台的店铺给他的父母买一台电视机,顾客提出一个简单需求甚至只给一张图片,机器人也能了解用户的意图是什么,并推荐一款新的电视机。也许这台电视机虽然很好,但是有点贵,所以客户有点抵触。这个时候AI基于对顾客和商品的理解和推理,可以解释因为是给父母一辈买电视机,需要屏幕大,声音洪亮,这样会更加贴近他们的需求,同时AI感知到顾客对价格的敏感度,会介绍相关的优惠活动,打消顾客疑虑,最后帮助顾客买到合适的电视,达成顾客和商家的双赢。 

从这个简单的每天都在发生的流程可以看到AI需要完整的跟踪上下文,要有情感管理能力,要有意图理解和知识推理能力,还要有全局优化的对话策略,才能达到最佳解决方案。我们也可以看到,对话不仅仅是语言的理解和语言的生成,很多时候AI和用户之间的交流类似于一个决策的过程,比如让AI学会做一个好的销售,从大量数据中学习销售的语言技巧等。从这点来看,对话像是围棋,但比围棋更复杂,对围棋而言棋盘的观测空间很大。但是下棋的执行空间很小,而语言的观测空间和执行空间基本都是无限的。 

下面我简单介绍一下打造智能对话与交互系统所需的一些核心技术。 

比如精准用户意图理解。能不能精准理解用户的各种各样内在的意图,用户为什么这样想,哪些关键的词语表现了用户的需求,需要深度的模型对意图精准理解。还有语义解析。用户很简单说了一句话,比如需要订一张今天的机票,从波士顿到纽约,AI能不能分析出他讲的起点城市是波士顿,终点城市是纽约,时间是今天。精准的意图理解和语义解析是使机器人能够完成客户任务的基础技术。 

有时为了让交流更有趣味,吸引客户,需要智能生成内容,比如用户购买自拍杆,可以生成一首小诗,提高用户的体验度。比如通过AI写出推荐短文,自动生成商品的亮点文案,所有这些内容的生成对促进交流的效率,达成销售的目标,有很大的影响。 

情感分析技术也很重要。因为人是情感动物,交流的时候有喜怒哀乐、高兴、失望等等。在智能客服应用中,在每一个时刻AI不单要知道用户的意图,还要知道用户的心情,根据不同心情做不同的引导,为客户提供很贴心的交流,很好的反馈,给予了顾客很好的体验,某种程度上进一步提升了交流的效率,降低了交流的成本。在京东,我们可以做到7种不同情绪精准的识别,还可以识别情感浓度,基于这样的情绪识别能力,我们能做更好的对话决策。 

不仅仅通过文字交流,有的时候通过语音,或者通过语音配合图像一起,进入多模态交互,可让用户的体验更好。给大家举个例子,我们希望在AI+媒体上进行一些突破。通过这样的多模态的语音交互,与用户有更深入的交流,极大增强用户的体验,进一步增加交流的效率。 

之前介绍了单点技术比如说在语音、图像上进行理解,其实人类不仅仅停留在一个模态,我们本身是多模态处理的智能体,比如当你读文字的时候对奥巴马有这样的理解,但是阅读图片还有各种各样关于他的演讲,才对奥巴马这个实体有了更深入的理解。以前处理语音和处理图像的机器学习模型是很不一样的,但现在通过深度学习技术,我们可把图像或文字蕴含的语义抽离出来,跟人的脑海里一样,不管是看图片还是读文字还是听语音,最终在脑海中形成语义概念。现在我们可以模拟多模态的语义空间,把不同模态的信号,在语义空间里面汇合,进行推理。 

在京东有一个很长的零售链条,包括售前销售、咨询,还有售中、售后、物流,整个链条京东都有,这里有大量的需要机器人参与服务的场景。下面这个例子直观展现京东在语言识别、语言理解,包括内容生成,包括完成任务,处理工单各个方面的技术。 

整个智能客服是非常复杂的过程,客户服务完成流程包括进线咨询、分流调度、接待服务、咨询后跟进、纠纷和售后。我们的目标不是用AI完全取代人类,而是让AI和人工融合在一起,达到效率的提高,成本降低,和用户体验的提升。 

基于京东的智能对话与交互技术, 客服效率提高了90%,售前转化率得到极大的提升,服务的闭环得到明显的提高,这一切使得用户整体有一个更好的体验。 

我们不仅仅线上做客服,在线下、IOT、智能音箱等场景也提供赋能。比如在线下零售店里部署了京灵机器人,通过多模态交互,给用户提供咨询。比如这个机器人有很大的屏幕,这个屏幕有摄像头,可以识别这个顾客是否是VIP,通过语音或者触摸多模态的交互,精确理解用户的需求,把精确的信息反馈给用户,使得线下的零售体验提升。 

以上很多是在京东内部的部署,但AI有很大的能力,要在很大的规模上进行价值的验证和体验的验证。经过内部验证之后,我们更加有信心,通过打造一个通用智能对话与交互技术平台赋能更多的产业。 

比如智能服务产业发展历程和市场规模,预测2025年AI化智能服务达到2000亿,里面有大量智能服务的需求,为了支持这种需求,京东进一步把多种对话和交互技术搭建成一个技术平台。这个平台不是一个大而全的普通AI平台,它更加专注于如何提供更好的多模态对话与交互服务,通过各种各样的模块、模型、通过组合,迅速生成一系列的智能对话交互产品,赋能到各个行业中去。同时,我们通过前端的智能交互,得到用户真实的意图后,可进一步进行流程自动化,比如工单的自动化,物流跟踪的自动化等。通过智能交互,得到用户精准的需求,通过任务自动化,使得整个服务形成闭环,这样达到体验和效率提升。为此京东通过智能交互RPA平台,对零售服务、政务服务等,得出高效率的服务方案。下面是智能交互服务端到端的产品全景图,可以用最低的成本,使得各个场景得到最好的服务。 

对外,京东已与联通进行合作,助力客服服务中心,探索更新的模式,使得联通服务顾客的能力得到进一步提升。京东与华西第二医院,打造分诊机器人、咨询机器人,以前需要人工服务的工作,现在可以通过机器人解决。比如说市政服务,我们为商务部、大同市提供咨询系统和智能市长热线。京东最终希望通过智能交互技术构建一个AI的产业生态,从基层开始,打造不同的AI能力,打造不同的AI的服务平台,最后也能为第三方创业企业、创业者赋能,使他们利用这个平台,为其顾客提供更好的服务。

这里特别感谢京东云,助力智能交互技术规模化赋能产业,借助京东云这样一个基础的云计算设施,我们将向全社会提供大规模的多模态智能对话与交互技术。 

(本报告根据速记整理)

CAAI原创 丨 作者何晓冬
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会