中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2021 演讲实录丨百度技术委员会主席吴华:开放域对话系统的进展与挑战

发布时间:2021-08-13

2021年6月5日至6日,由中国科学技术协会、中国科学院、中国工程院、浙江省人民政府指导,中国人工智能学会、杭州市人民政府主办,杭州市余杭区人民政府筹备组承办,浙江杭州未来科技城管理委员会具体执行的2021全球人工智能技术大会在杭州成功举办。在6月6日举办的自然语言理解专题论坛上,百度技术委员会吴华主席为我们带来了题为《开放域对话系统的进展与挑战》的精彩演讲。

微信图片_20210830173034.png

吴华

百度技术委员会主席

以下是吴华的演讲实录:

我报告的题目是《开放域对话系统的进展与挑战》,首先介绍开放域对话系统的最新进展;然后分享百度关于知识驱动的对话系统的进展;最后汇报对话数据集和面临的挑战。

一、人机交互的发展历史及最新进展

首先回顾人机交互的发展历史。在上个世纪50年代,人机交互主要用的是穿孔纸带,之后是大家熟知的字符界面键盘、鼠标,iphone出来后就变成了以触屏为主的交互。随着人工智能技术的发展,出现了以人工智能技术为核心的交互,包括语言、语音、图像、手势等智能交互。在这个背景下,开放域对话交互技术已经变成了一个核心技术。我们来看开放域对话式交互的主要目标。

这是一个对话的举例,对话虽然很短,但是涵盖了闲聊、信息满足,任务完成三个内容。在语音指令这样的应用中,需要的技术也非常综合,比如任务型对话里也有知识选择、信息满足,甚至有闲聊,在实际应用中我们很难区分这是一个任务型对话,还是一个开放域对话,所以在实际应用中,我们必须综合满足用户的跨类型的对话需求。

开放域对话的最新进展主要来自对话领域预训练的进展。从2018年预训练技术提出来之后,开放域对话领域也开始做预训练技术。在BERT和ERNIE之后,很多公司也研发了很好的对话领域预训练模型,有百度的PLATO、微软的DialoGPT、Google的Meena、Facebook的Blender, 之后我们又提出了PLATO-2。随着预训练的发展,参数规模开始增大,从几亿到几十亿,Facebook的Blender接近100亿这样的规模。

二、百度在知识驱动对话系统的一些工作

即使是有这些对话预训练技术的最新进展,我们还是能看到开发域对话里的三个问题,一是不能主动规划对话内容;二是对话的主题不连贯;三是知识不准确。任务型对话里,有一个具体的目标可以去控制,有一个典型的policy的模型。但是,开放域对话模型里是没有这样一个模型的,所以实际上是不可控的,不能主动规划对话的内容;还有就是对话的主题很空泛,甚至不连贯。另外,随着预训练技术的发展,对话本身很流畅,但是大多数情况下,知识是非常不准确的,张冠李戴的情况非常多。为了缓解这样的问题,我们提出了知识驱动的对话系统。其目标主要分为三方面,一是可控,就是自动规划对话路径,做到Topic之间可以自由切换;二是有内容,不是空泛的闲聊,为此我们提出了知识驱动的多轮对话;三是内容的一致性,使对话内容一致,不自相矛盾。

我们提出了知识驱动的可控对话系统,可以自动规划目标,内容可控,系统主动。之前的闲聊系统里更多的是用户发问,系统来回答,系统并不能主动控制内容。基于这样一个假设,我们提出了融合显式和隐式知识的对话系统。下面是具体的技术方案,首先是基于预训练的对话生成系统;除了端对端隐式生成系统,这个系统可以做对话理解,从显式的知识库提取知识。知识库中有长期记忆,包括图谱、文档、个性化的内容,以及之前的历史对话里的知识,这些知识融合在最后的解码器里生成一个回复。基于这个方案,首先要夯实基础,就是端对端的对话生成模型,在这个基础上再融入知识和对话控制。刚才也提到了端对端生成模型PLATO,其目标是能解决对话生成里一对多的问题。我们知道同一个上下文,它可能回复的是多个,不是一对一的问题。比如这个例子,“今天天气很冷,外面风很大。”,我们的回复可以是关于温度的,可以是关于感受的,还可以是一个简单的附和。再比如,你今年多大了,如果没有基于知识,回答的内容也非常多,你随便可以回答你现在16岁,等会你就可以回答60 岁,如果没有知识的驱动,对话系统就可能自相矛盾。所以,我们在这里要融合知识。

首先来看基线模型,这是我们PLATO的模型,它是带隐变量的。隐变量的目标是解决对话的一对多问题。中间这个隐变量类似于我们的dialogue act,一个隐式的act表示一个回复的方向,基于这个回复的方向,最后生成回复。

我们看一个例子。第一个是用户说的一句话,系统能够通过一对多这样的模型给出不一样的回复。PLATO这个模型是1亿的参数规模,我们在想scale up参数规模的时候发现有一些问题,所以在这个基础上我们提出了 PLATO-2。这里面有两步,第一步是做一对一的生成。我们发现,一对一虽然不是很好,但是是一个非常好的基线,所以第一步生成一对一的回复。第二步做细粒度的生成,就是一对多生成。因为有多个候选,所以要做候选评估,也就是选择。然后通过这样一个模型(现在最大的模型是16 亿),生成最终的一个回复,效果很好。

这是我们最后评估的效果,在我们论文里都有。我们用PALTO-2参加了DSTC 9的比赛,在5个任务上,包括基于知识的聊天及任务型对话,证明我们的模型有很好的泛化性。当时PLATO-2被很多的用户误认为它就是人在对话,怀疑PLATO-2后面是人,完全可以以假乱真。

即使有了很好的基线模型,我们依然面临三个挑战,即一致性、有内容、可控。要解决所有的一致性问题很难,因此首先解决画像的一致性问题。我们有一个画像库,基于这个画像库提出了multitask learning的方法。同时学习开发域聊天画像的一致性和聊天能力,一致性从以前的17%提升到80%,目前已经在实际中应用。

另外一个就是做到对话有知识、有内容。在实际应用中,我们很难获得标注了知识的对话数据集,所以只能通过无监督知识学习的方法,使对话系统拥有知识。一种方式是加大预训练的参数,然后使它隐式地记住这些知识,但是准确率不高,所以我们通过显示的方法解决这个问题。这个方法分为两部分,一个是知识选择;另一个是生成。知识选择,候选的知识内容非常多,我们通过Top k知识选择方式,在应用中选5条知识,最后在生成里使用。从结果看,我们无监督的知识选择方法和用监督知识的方法效果接近。

最后是可控性问题。怎么规划开放域对话的路径,使对话系统能主动在各个Topic之间自由切换。我们提出了一个方法,就是做一个hierarchical policy模型。上层policy负责规划,下层policy围绕这些topic 聊天。机器什么时候触发知识、推荐知识、切换知识,这是上层 policy决定的;围绕一个topic深入聊天,这是通过下层policy决定的。

这是一个发表在 AAAI 2020的文章上的例子,上图大圈表示的是一个Topic,比如某个人、某件事,小圈是围绕这个人或者这个事件的详细 facet。Topic之间的转移,就是做high level policy(上层policy),小圈里的转移叫做low level policy。

这是一个具体的实现这个思想的模型,也是用neural network做的。在我们公开的一个知识对话数据集上做实验,这个数据集约有3万对话、12 万句子;提供电影明星领域的知识图谱约有9.1万的电影、5.1万明星、360万三元组。从实验结果可以看到,因为我们的模型可以自动规划对话内容,对话的连贯性更高。我们可以控制对话的走向、知识的使用,因此在知识准确率,以及信息丰富度等各方面指标都有一些提升。

除此之外,我们还做了很多其他的工作,比如怎么去实现开放域里系统可迁移性,怎么构建不同用途的知识图谱用于不同的对话目的。比如对话式推荐的目标是从任意聊天内容顺畅地引导用户去做系统推荐的任务;比如在金融领域引导去买基金,在娱乐领域引导用户去听歌等。对话目标非常明确,需要系统具有良好的可控性和可迁移性。

针对如何提升对话系统可控性、知识性、一致性这三方面,我们提出了三个数据集。第一个数据集是知识驱动的主动对话数据集,实际上引导用户从任何一个话题引导到设定的目标话题。第二个是一个对话式推荐数据集,融合了问答、聊天和推荐这三个功能。今年提出了一个画像驱动的主动对话数据集。用户和系统都拥有自己的画像,画像之间可能还有交集。比如系统知道用户喜欢电视剧、喜欢做菜,系统就会主动引导用户看看大片、研究菜谱。今年的比赛融合了这三个数据集合,目标是衡量一个模型能否处理多个对话任务。除了这个对话集合,还有千言对话集合,是集合8个中文对话集合,包括任务型对话、知识聊天、对话式推荐等多种对话目标。

三、对话系统的挑战

目前对话系统存在的挑战有以下四个方面。

一是目标不明确的问题。没有明确有用的自动评估指标。

二是对话知识表示和使用的问题。如何获取和使用背景知识,体现对话逻辑;如何有效融合知识,同时提升多轮合理性和信息丰富性;目前的对话系统能学到使用知识的模式,但是知识准确率不高。

三是对话逻辑控制问题。目前没有公认的多轮决策机制。

四是语料数据问题。对话语料很难获得,怎么利用现有的对话系统生成对话语料也是一个值得研究的问题。

探索这几个方向,首先还是要夯实基础,继续提升大规模预训练生成模型的能力,同时提升知识的准确率。最终我们的目标是一个通用的智能对话系统,可以完成任务、回答问题、会聊天,同时还是一个多模态的系统。

(本报告根据速记整理)

CAAI原创 丨 作者吴华

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会