发布时间:2017-06-14
刘挺
哈尔滨工业大学教授
社会与信息检索研究中心主任
以下是刘挺教授的演讲实录:
今天这个分论坛的内容真是立体交叉,风格不尽相同。我做自然语言处理的,演讲的题目是:自然语言处理中的技术评测。
人工智能可以划分为几个阶段:运算智能、感知智能、认知智能,未来还有预测决策智能和创新智能。像我们实验室在做的自动写作文,就有创新的色彩。
自然语言处理是典型的认知智能,与感知智能中的语音处理相比,自然语言面对的问题要纷繁复杂得多,同时自然语言处理经常涉及到常识、推理等认知能力,存在大量可以利用的先验知识,与行业深入结合,部分课题评测难度高。
自然语言处理有哪些课题呢?可以用一颗大树来比喻,最底下是句法语义分析,树干是阅读理解,树枝是机器翻译等应用技术,叶子是跟行业相结合的各类应用。
今天我想通过三项人们非常关注的NLP技术来介绍这个领域的技术评测:一个是句法语义分析,即句子级的语言理解,二是阅读理解,是篇章级的语言理解,给定一篇文章,让机器阅读,然后请人针对这篇文章问各种各样的问题,看机器能不能回答出来。第三个是人机对话,这个大家都熟知Siri,微软小冰等。
技术评测一直是驱动自然语言处理技术发展的重要手段。国外有美国的NIST、DARPA,日本的NTCIR等评测会议,中国各学会的专业委员会,如CCL、SMP、CCIR、CWMT、NLPCC等也都在组织技术评测。我的一个理念是:中文的评测由中国人引导,而不是去参加美国、日本组织的评测。
句法语义分析评测。看这个句子:“您转那篇文章很无知”,实际上我想说的:“您转的那篇文章很无知。”只差一个“的”,意思完全不同了。机器人要理解词汇之间的关系和句子的含义,需要靠句法语义分析,把词的序列形式转化为图结构。句法语义分析,从短语结构、句法依存、通用依存、一直到语义依存图,在不断地发展。刚才于老师讲怎么算理解。我们一直在思考,到底什么样的机器内部表示形式更能够充分、准确的刻划句法语义结构。人们探讨了各种各样的表现方式,哈工大提出了语义依存图的表示方式。
相关评测,也是沿着各种方式在不断推进:从单语单领域到多语言树库,再从多领域树库到通用树库,直至语义依存树库。
这是2009年进行的国际多语依存句法分析和语义角色标注评测,涉及7国语言,哈工大获得总成绩第一名。国内的学者不仅在中国做得好,而且在国外的比赛当中我们也取得了很多骄人的成绩。在2012年,谷歌组织的SANCL多领域依存句法分析评测中,哈工大获得第三名。在今年刚刚结束的CoNLL国际通用句法分析评测,涉及到45种语言,64个领域的树库,各种语言采用统一的标注方式,比拼核心算法。这次评测有113支队伍报名,包括卡内基梅隆大学、华盛顿大学、多伦多大学、牛津大学、爱丁堡大学、东京大学、IBM研究院、Facebook公司等。由于问题难度较大,最终只有33家提交了,最后哈工大获得了第四名,前三名是:美国斯坦福大学、美国康奈尔大学、德国斯图加特大学。
2012年,哈工大组织了中文语义依存分析国际评测,2014年,国外也开始组织语义依存分析评测。
哈工大的句法语义分析技术经过十几年的打磨,整合为“语言技术平台LTP”,多年来一直对外提供开源代码和云服务。欢迎大家直接调用LTP平台的使用接口,目前该平台有1.1万名注册使用者,日均请求70多万次,百度、腾讯、华为、讯飞等大企业付费使用。
刚才讲的是最底层的句法语义分析。下面介绍一下阅读理解评测。阅读理解最近特别火,成为各大巨头必须争之地。因为大家做人机对话的时候发现,很多问题并不能真正回答好。
因此,阅读理解的研究得到高度重视:给机器一篇文章,人针对这篇文章问各种各样的问题,看看机器是不是真正能够理解,是不是能够答对。这是哈工大讯飞联合实验室做的儿童阅读理解系统,机器对适合六岁儿童阅读的文本进行深入分析,对问题也要进行相应的分析,最后推导答案。
国际的巨头纷纷投入阅读理解的研究,从微软的MCTest,到Google DeepMind的CNN/Daily Mail,还有Facebook的CBT,哈工大讯飞联合实验室推出的HFL-RC PD&CFT(第一个中文阅读理解数据集),以及当前热点斯坦福大学的Stanford SquAD。
微软的MCTest像我们平时做英文阅读理解一样,有四个人工编写的选项,让你从其中选一个作为答案,数据量比较小,500篇文章,2000个问题。很快过渡到了DeepMind的评测集,它从与新闻对应的摘要中抽取一个句子,把句子当中的一个词挖掉,构成了一个填空题,这个填空题的答案就是被挖掉的这个词本身,这样瞬间构造了几十万份的阅读理解填空题,在这个数据集上大家做了很多研究。
紧接着Facebook做了一个评测集,把一篇文章中连续20个句子作为阅读材料,第21个句子拿出来挖掉一个词,作成填空题,挖掉的那个词本身就是答案。它不是从摘要里面挖,是从这篇文章本身挖,从文章自身中挖掉一个词很简单,这等于训练集、测试集变得无限大。Facebook填空题也是很难的,目前哈工大讯飞联合研究实验室(HFL)取得了世界最好成绩,同时HFL推出了第一份中文的阅读理解评测集,大家对中文阅读理解感兴趣的话,可以用我们的评测集。
最近非常火的是斯坦福大学的评测集,重新回到了类似微软MCTest的模式,用真实整句问题提问,但是采用众包的形式,让很多人在众包平台上发问,从而收集到10万个问题,与MCTest相比,问题量大幅度扩大了。而且不是完形填空的问题,变成了真实问题,因此现在成为了各家竞争的焦点。大家每天都可以挑战这个评测集,如果你认为你的算法比较合理了,有把握了,就可以发给斯坦福,可以重新刷榜单。哈工大讯飞联合实验室(HFL)现在排在第二位,第一位是微软亚洲研究院。
总的来说,这一轮阅读理解竞争,本质上是对语言的篇章级理解、推理发起的挑战。不同的测试集代表了不同的维度,不同的检测点,包括是不是真实问题,规模是不是足够大,等等。
哈工大讯飞联合实验室(HFL)正在依托全国计算语言学学术会议(CCL)组织首届中文阅读理解评测,已经有30多家单位报名了,欢迎关注。
另外有一个和阅读理解相关的评测,叫Winograd。这个评测的思路是:机器为了通过图灵测试,经常把自己伪装成人,但这方面的努力对提高机器智能的帮助不大。Winograd测试提出了更难的,更有挑战性的问题。举个例子,“市议员拒绝给示威者许可,因为他们提倡暴力”。“他们”指代的是“市议员”,还是“示威者”?这个问题很难,需要基于常识才能回答。同时,要编出这样的问题也不容易,在2016年的Winograd比赛上,总共只有60道题。现在准确率达到58%。大家想想,58%意味着什么?比50%稍微高一点而已,这个问题真的很难。
最后介绍一下人机对话,现在火得很,和机器人也是密切结合的。我们一般认为人机对话有四大功能,第一聊天,第二知识问答,第三任务执行(也叫做垂类),第四信息推荐。哈工大自己做的聊天机器人叫“笨笨”。大家扫描这个二维码,可以跟它聊天。人机对话系统能够把自然语言处理中各种各样的技术都集成进去,我们实验室多年积累的各项技术,几乎都在这个平台上得到了一定的应用。我们也正在依托全国社会媒体处理大会组织首届中文人机对话评测,哈工大张伟男老师当评测主席,科大讯飞提供数据,华为公司提供赞助。
这次评测中有两个任务,一是“中控分类”,把用户的话自动分为分为闲聊和任务执行,任务又分为30多个类别。第二个任务是特定域任务型的人机对话在线测评,包括定机票,定宾馆等实际任务。
我对任务型人机对话评测再展开介绍一下。假如说用户有完整的意图:“预定下周三从哪儿到哪儿的机票”,用户向机器人发出命令,不同的机器人会有不同的回答,很快就分叉了,这种多轮分叉导致自动评测很难展开,于是我们采用人工评测。提供数据集,评测过程中给所有的机器人同样的首轮命令,机器人回答之后,我们用人工来响应。当然人工要配合机器人进行回答,看看能不能够解决这个问题。评测人员主观地进行打分,包括任务完成率、用户的满意度、回复语言的自然度、还有引导能力等。有一个评测指标是客观的,即:对话轮数,对话轮数越短,说明机器人能够越有效地帮用户解决问题。现在有74支队伍报名,腾讯、阿里巴巴等大企业,还有很多人机对话方面的创业企业和大学的实验室。
现在国际上关于人机对话的竞争非常激烈,很多想法,你想到的别人也立刻会想到,会去做。NIPS 2017也在组织人机对话评测,他们时间比我们稍微拖后一点,方法是让机器阅读一篇文章,然后针对这篇文章进行人机对话。
我做一个总结。第一,在句法语义分析是人为定义的问题,问题的定义形式多样、多变,总体上从在从句法向语义发展。评测数据的规模很有限,每一种语言有1-2万句子作为评测数据,小语种更少。评测方法比较简单,进行对比就可以了。阅读理解是介于人为定义问题和真实问题之间的问题,它反映出了自然语言处理在向篇章级理解和推理方向发展的趋势,它的难点在于你如何设计题目,才能有效地迫使机器进行深入的推理,而不是用简单搜索匹配。人机对话是非常有挑战性的,现在我们只能用人工的方式进行评测,有没有可能自动的进行评测,需要深入研究。像机器翻译,原来也是人工设计检查点,后来对比机器的翻译结果和人工的翻译结果,做自动评测了,有力地拉动了机器翻译的进步。未来人机对话有可能进行自动评测,但这个自动评测问题本身就是非常有难度的课题。在自然语言处理领域就是这样,有的评测比较简单,有的评测技术本身就非常值得研究了。
总的来说,技术评测在不断地推动自然语言处理技术的发展。新的问题和新的评测方式不断被提出,什么样的评测是一个好的评测?我们认为难度略高于当前的技术水平是比较合适的,过难了导致评测的结果很差,大家也失去信心,引导性不够强。评测不能满足于只给出一个指标,应该帮助诊断出来当前技术的缺陷。比如阅读理解的评测能不能诊断出来哪些问题机器能答好,哪些问题机器打不好,为什么打不好,是推理能力不足,还是常识知识不足。另外,我反对一味地刷排行榜的工作方式,要追求更高的排名,需要在原理上进行创新,而不是不断地添加技巧。
我的报告有哈工大车万翔、张伟男老师,以及讯飞研究院的崔一鸣研究员提供诸多内容,在此向他们表示感谢。感谢主办方,感谢各位来宾!
(本报告根据速记整理)
CAAI原创 丨 作者刘挺教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会