数字图书馆

GAITC 2017 AI变革时代的智能系统测评分论坛实录丨刘挺：自然语言处理中的技术评测

发布时间：2017-06-14

微信图片_20210913154017.png

刘挺

哈尔滨工业大学教授

社会与信息检索研究中心主任

以下是刘挺教授的演讲实录：

今天这个分论坛的内容真是立体交叉，风格不尽相同。我做自然语言处理的，演讲的题目是：自然语言处理中的技术评测。

人工智能可以划分为几个阶段：运算智能、感知智能、认知智能，未来还有预测决策智能和创新智能。像我们实验室在做的自动写作文，就有创新的色彩。

自然语言处理是典型的认知智能，与感知智能中的语音处理相比，自然语言面对的问题要纷繁复杂得多，同时自然语言处理经常涉及到常识、推理等认知能力，存在大量可以利用的先验知识，与行业深入结合，部分课题评测难度高。

自然语言处理有哪些课题呢？可以用一颗大树来比喻，最底下是句法语义分析，树干是阅读理解，树枝是机器翻译等应用技术，叶子是跟行业相结合的各类应用。

今天我想通过三项人们非常关注的NLP技术来介绍这个领域的技术评测：一个是句法语义分析，即句子级的语言理解，二是阅读理解，是篇章级的语言理解，给定一篇文章，让机器阅读，然后请人针对这篇文章问各种各样的问题，看机器能不能回答出来。第三个是人机对话，这个大家都熟知Siri，微软小冰等。

技术评测一直是驱动自然语言处理技术发展的重要手段。国外有美国的NIST、DARPA，日本的NTCIR等评测会议，中国各学会的专业委员会，如CCL、SMP、CCIR、CWMT、NLPCC等也都在组织技术评测。我的一个理念是：中文的评测由中国人引导，而不是去参加美国、日本组织的评测。

句法语义分析评测。看这个句子：“您转那篇文章很无知”，实际上我想说的：“您转的那篇文章很无知。”只差一个“的”，意思完全不同了。机器人要理解词汇之间的关系和句子的含义，需要靠句法语义分析，把词的序列形式转化为图结构。句法语义分析，从短语结构、句法依存、通用依存、一直到语义依存图，在不断地发展。刚才于老师讲怎么算理解。我们一直在思考，到底什么样的机器内部表示形式更能够充分、准确的刻划句法语义结构。人们探讨了各种各样的表现方式，哈工大提出了语义依存图的表示方式。

相关评测，也是沿着各种方式在不断推进：从单语单领域到多语言树库，再从多领域树库到通用树库，直至语义依存树库。

这是2009年进行的国际多语依存句法分析和语义角色标注评测，涉及7国语言，哈工大获得总成绩第一名。国内的学者不仅在中国做得好，而且在国外的比赛当中我们也取得了很多骄人的成绩。在2012年，谷歌组织的SANCL多领域依存句法分析评测中，哈工大获得第三名。在今年刚刚结束的CoNLL国际通用句法分析评测，涉及到45种语言，64个领域的树库，各种语言采用统一的标注方式，比拼核心算法。这次评测有113支队伍报名，包括卡内基梅隆大学、华盛顿大学、多伦多大学、牛津大学、爱丁堡大学、东京大学、IBM研究院、Facebook公司等。由于问题难度较大，最终只有33家提交了，最后哈工大获得了第四名，前三名是：美国斯坦福大学、美国康奈尔大学、德国斯图加特大学。

2012年，哈工大组织了中文语义依存分析国际评测，2014年，国外也开始组织语义依存分析评测。

哈工大的句法语义分析技术经过十几年的打磨，整合为“语言技术平台LTP”，多年来一直对外提供开源代码和云服务。欢迎大家直接调用LTP平台的使用接口，目前该平台有1.1万名注册使用者，日均请求70多万次，百度、腾讯、华为、讯飞等大企业付费使用。

刚才讲的是最底层的句法语义分析。下面介绍一下阅读理解评测。阅读理解最近特别火，成为各大巨头必须争之地。因为大家做人机对话的时候发现，很多问题并不能真正回答好。

因此，阅读理解的研究得到高度重视：给机器一篇文章，人针对这篇文章问各种各样的问题，看看机器是不是真正能够理解，是不是能够答对。这是哈工大讯飞联合实验室做的儿童阅读理解系统，机器对适合六岁儿童阅读的文本进行深入分析，对问题也要进行相应的分析，最后推导答案。

国际的巨头纷纷投入阅读理解的研究，从微软的MCTest，到Google DeepMind的CNN/Daily Mail，还有Facebook的CBT，哈工大讯飞联合实验室推出的HFL-RC PD&CFT（第一个中文阅读理解数据集），以及当前热点斯坦福大学的Stanford SquAD。

微软的MCTest像我们平时做英文阅读理解一样，有四个人工编写的选项，让你从其中选一个作为答案，数据量比较小，500篇文章，2000个问题。很快过渡到了DeepMind的评测集，它从与新闻对应的摘要中抽取一个句子，把句子当中的一个词挖掉，构成了一个填空题，这个填空题的答案就是被挖掉的这个词本身，这样瞬间构造了几十万份的阅读理解填空题，在这个数据集上大家做了很多研究。

紧接着Facebook做了一个评测集，把一篇文章中连续20个句子作为阅读材料，第21个句子拿出来挖掉一个词，作成填空题，挖掉的那个词本身就是答案。它不是从摘要里面挖，是从这篇文章本身挖，从文章自身中挖掉一个词很简单，这等于训练集、测试集变得无限大。Facebook填空题也是很难的，目前哈工大讯飞联合研究实验室（HFL）取得了世界最好成绩，同时HFL推出了第一份中文的阅读理解评测集，大家对中文阅读理解感兴趣的话，可以用我们的评测集。

最近非常火的是斯坦福大学的评测集，重新回到了类似微软MCTest的模式，用真实整句问题提问，但是采用众包的形式，让很多人在众包平台上发问，从而收集到10万个问题，与MCTest相比，问题量大幅度扩大了。而且不是完形填空的问题，变成了真实问题，因此现在成为了各家竞争的焦点。大家每天都可以挑战这个评测集，如果你认为你的算法比较合理了，有把握了，就可以发给斯坦福，可以重新刷榜单。哈工大讯飞联合实验室（HFL）现在排在第二位，第一位是微软亚洲研究院。

总的来说，这一轮阅读理解竞争，本质上是对语言的篇章级理解、推理发起的挑战。不同的测试集代表了不同的维度，不同的检测点，包括是不是真实问题，规模是不是足够大，等等。

哈工大讯飞联合实验室（HFL）正在依托全国计算语言学学术会议（CCL）组织首届中文阅读理解评测，已经有30多家单位报名了，欢迎关注。

另外有一个和阅读理解相关的评测，叫Winograd。这个评测的思路是：机器为了通过图灵测试，经常把自己伪装成人，但这方面的努力对提高机器智能的帮助不大。Winograd测试提出了更难的，更有挑战性的问题。举个例子，“市议员拒绝给示威者许可，因为他们提倡暴力”。“他们”指代的是“市议员”，还是“示威者”？这个问题很难，需要基于常识才能回答。同时，要编出这样的问题也不容易，在2016年的Winograd比赛上，总共只有60道题。现在准确率达到58%。大家想想，58%意味着什么？比50%稍微高一点而已，这个问题真的很难。

最后介绍一下人机对话，现在火得很，和机器人也是密切结合的。我们一般认为人机对话有四大功能，第一聊天，第二知识问答，第三任务执行（也叫做垂类），第四信息推荐。哈工大自己做的聊天机器人叫“笨笨”。大家扫描这个二维码，可以跟它聊天。人机对话系统能够把自然语言处理中各种各样的技术都集成进去，我们实验室多年积累的各项技术，几乎都在这个平台上得到了一定的应用。我们也正在依托全国社会媒体处理大会组织首届中文人机对话评测，哈工大张伟男老师当评测主席，科大讯飞提供数据，华为公司提供赞助。

这次评测中有两个任务，一是“中控分类”，把用户的话自动分为分为闲聊和任务执行，任务又分为30多个类别。第二个任务是特定域任务型的人机对话在线测评，包括定机票，定宾馆等实际任务。

我对任务型人机对话评测再展开介绍一下。假如说用户有完整的意图：“预定下周三从哪儿到哪儿的机票”，用户向机器人发出命令，不同的机器人会有不同的回答，很快就分叉了，这种多轮分叉导致自动评测很难展开，于是我们采用人工评测。提供数据集，评测过程中给所有的机器人同样的首轮命令，机器人回答之后，我们用人工来响应。当然人工要配合机器人进行回答，看看能不能够解决这个问题。评测人员主观地进行打分，包括任务完成率、用户的满意度、回复语言的自然度、还有引导能力等。有一个评测指标是客观的，即：对话轮数，对话轮数越短，说明机器人能够越有效地帮用户解决问题。现在有74支队伍报名，腾讯、阿里巴巴等大企业，还有很多人机对话方面的创业企业和大学的实验室。

现在国际上关于人机对话的竞争非常激烈，很多想法，你想到的别人也立刻会想到，会去做。NIPS 2017也在组织人机对话评测，他们时间比我们稍微拖后一点，方法是让机器阅读一篇文章，然后针对这篇文章进行人机对话。

我做一个总结。第一，在句法语义分析是人为定义的问题，问题的定义形式多样、多变，总体上从在从句法向语义发展。评测数据的规模很有限，每一种语言有1-2万句子作为评测数据，小语种更少。评测方法比较简单，进行对比就可以了。阅读理解是介于人为定义问题和真实问题之间的问题，它反映出了自然语言处理在向篇章级理解和推理方向发展的趋势，它的难点在于你如何设计题目，才能有效地迫使机器进行深入的推理，而不是用简单搜索匹配。人机对话是非常有挑战性的，现在我们只能用人工的方式进行评测，有没有可能自动的进行评测，需要深入研究。像机器翻译，原来也是人工设计检查点，后来对比机器的翻译结果和人工的翻译结果，做自动评测了，有力地拉动了机器翻译的进步。未来人机对话有可能进行自动评测，但这个自动评测问题本身就是非常有难度的课题。在自然语言处理领域就是这样，有的评测比较简单，有的评测技术本身就非常值得研究了。

总的来说，技术评测在不断地推动自然语言处理技术的发展。新的问题和新的评测方式不断被提出，什么样的评测是一个好的评测？我们认为难度略高于当前的技术水平是比较合适的，过难了导致评测的结果很差，大家也失去信心，引导性不够强。评测不能满足于只给出一个指标，应该帮助诊断出来当前技术的缺陷。比如阅读理解的评测能不能诊断出来哪些问题机器能答好，哪些问题机器打不好，为什么打不好，是推理能力不足，还是常识知识不足。另外，我反对一味地刷排行榜的工作方式，要追求更高的排名，需要在原理上进行创新，而不是不断地添加技巧。

我的报告有哈工大车万翔、张伟男老师，以及讯飞研究院的崔一鸣研究员提供诸多内容，在此向他们表示感谢。感谢主办方，感谢各位来宾！

（本报告根据速记整理）

CAAI原创丨作者刘挺教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

GAITC 2017 AI变革时代的智能系统测评分论坛实录丨刘挺：自然语言处理中的技术评测