中国人工智能学会

Chinese Association for Artificial Intelligence

CIIS 2018 演讲实录丨饶峰云:以知识为中心的智慧司法解决方案

发布时间:2018-12-11

由中国人工智能学会主办,广州易间网络科技有限公司承办的2018第八届中国智能产业高峰论坛11 月17-18日在成都完美收官,论坛在两天的会议里带来了多场精彩报告。

此次小编为大家整理的是来自北京国双科技有限公司技术总监饶峰云主题为《以知识为中心的智慧司法解决方案》的精彩演讲。 

14-1.jpg

饶峰云

北京国双科技有限公司技术总监 

以下是饶峰云的演讲实录: 

针对各种司法数据、行业支持知识,我们积累了包括文书解析、知识图谱、信息检索等应用服务能力,以文本解析为例,处理超过5 000万的裁判文书,解析出4 700多个司法专业维度和要素,建立了20多万个经审核的问答对体系,聚合并审核了超过3 000个争议焦点、裁判规则等。裁判文书外,还对起诉状、上诉状、答辩状、庭审笔录等其他类型文书做信息抽取、结构化和解析。 

面对几百种文书,同时解析几千个维度,需要一个很庞大的工程能力、大数据处理的能力。具体到算法层面:① 文书分段。它和语文的分段不一样,是一个法律意义上的分段,比如要知道这一段是讲诉请段、证据段、裁判结果段等,这是所有的基础。这方面我们用的是深度学习的分类算法来做,准确率还是非常高的。② 命名实体识别。一个文书中涉及到很多人名、地名、机构名等。③ 业务规则和要素体系这些业务规则和要素体系里的法律逻辑都是我们业务专家提取出来的。 

要素特征的抽取在语义层面会更抽象一层,也更难做一些。要素来源于法律法规和规范性的指导文件。要素非常有用,它可以起到桥梁作用,把裁判文书中的争议焦点、裁判规则给关联起来。按照法院不同的立场,它有诉请要素、抗辩要素、事实要素和裁判要素四个划分。以上工作有很大一部分是用监督学习的办法来做的。解决的第一步就是要标注数据,这需要大量的人力。 

在建立了知识之后,我们怎么用这个知识?通常我们希望能对对知识做检索、问答。我们首先做了一个类案同判的大数据引擎,让法官能够搜索到类似案件别人是怎么判的。为了建立这个类案同判的大数据引擎做了两件事情:① 把几千万的文书全部解析出了很多维度,对各种维度做多维度的剖析,做统计分析;② 寻找类案。最关键的检索部分,就是去检索类似案件。我们也经历了不同版本的迭代,最开始就是最简单的、用文本相似度来做这件事情,文本相似了就是类似案件,结果发现不是很准;再后来用关键段落,最新版本主要是基于要素来做的,案件的要素相同就是类似案件,相同的要素越多就越类似。 

我们还做了一个智能问答的版本,是法信的一个升级版本,也是和人民法院出版社一起做的,它有以下几个功能与特点:① 用户意图的识别,比如查法律、法条和案例,用户的意图是用文本分类的做法来做的。② 问题语义解析,这也是比较经典的,比如我们做领域实体识别与槽位填充技术,我要问一个北京市离婚案件哪个律师的胜诉率最高的问题,要把北京市海淀区这个实体识别出来、把这个案由离婚识别出来、把律师胜诉率识别出来,所以这是一个实体识别和槽位填充的技术。③ 单轮问答语义检索。我们有20万单轮的问答对,都是人工编辑审核过的,这其实就是学术上比较常见的FAQ型的问答。④ 对话管理。我们还做了多轮对话,其主要是背后建了一个多轮树状的知识库,最主要的一个技术就是控制它的状态转移图。 

我们有20万单轮问答,目前人工梳理了三大领域的多轮问答库。目前做了两个版本,一个是针对法院的专业人士版本;另外一个是to C的对普通老百姓的版本。 

14-2.jpg

进一步来看我们是如何获得法研杯冠军。“定罪量刑”是这次法研杯比赛的题目,赛题是输入一个案件事实的描述,去预测法条、罪名、刑期,因为有100多万现成的裁判文书,它是一个有监督学习的问题。我们用的最多的模型是Recurrent  attention  network(简称RamNet),其结构如图所示。 

14-3.jpg

RamNet最早是EMNLP 2017的paper,用于实体情感,我们对它做了一些改进,去掉了其中实体部分,改进了recurrent attention的输入输出,并在多个应用场景中都发现它能显著战胜NLP领域常见的BiLSTM + attention网络,我们认为recurrent attention能提取更多的feature,尤其适合类别很多的多类标问题。 

此模型有一个信息拓扑结构,因为它同时预测罪名、法条、刑期,所以是一个联合学习的模型来做的,同时预测这三个类别,有三种办法。第一种并行的方法,前面是联合学习的共享层,每一个任务都用一个全链接去做预测;第二种串行的方法,第一个全链接去预测罪名,再把这个全链接的特征接着传递到第二个;第三种用一个图状的,比较复杂,比如先做罪名,罪名会传到法条,又会传到刑期。在实际的比赛模型中,我们用到了第一种和第三种,发现这两种效果好一些。 

我们对模型的loss还做了一些优化,传统多类标问题是logistic loss,考虑到罪名、法条和的类标并不是独立的,相互之间有关联,所以尝试了CRF loss,在实践中,模型效果会有一定提升。 

我们还引入了业务的规则,尤其是在刑期预测中原来是深入学习提取出来的feature,会把基于业务规则提取出来的feature和统计特征的feature一起再做分类,这样在实验中的效果有很大提升。 

14-4.jpg

前面介绍的是在法研杯比赛中拿第一名用到的模型,基本上都是端到端的深度学习模型;后期应用正在优化,将文本解析、要素体系与模型结合,进一步深化应用能力。 

此外还开发了文书生成系统提升法官写文书的效率。做法是给法官提供两种选择,第一种是直接找类案,通过前面类案的做法,找到类案之后,法官直接从类似案件中选模板,把模板套进来,再把解析的东西填到模板中,这是一个做法。第二种是应用知识图谱的推理。我们为文书生成构建的一个案件知识图谱,针对每一个案件类型,定义争议焦点、裁判规则、法律法规、诉辩称、诉讼请求项,这样把它关联起来。法官在审判案件的过程中会去找类案来参酌,但是类案的案件非常多,我们会根据要素,给法官推荐最相似的争议焦点(争议焦点的数量相对是少的)。根据统计做争议焦点的排序,把最相关、最可能的争议焦点放在前面。法官选完争议焦点后,争议焦点和裁判规则有对应关系,裁判规则和法律法规又有对应关系。所以,我们先有一个推荐,推荐完他选择后,需要的文书即可生成。 

总结我们的知识智能在司法领域的经验认为,司法领域有大量高质量的语料和知识;司法领域有丰富的NLP技术应用,包括信息抽取、信息检索、知识图谱、问答等;司法领域有丰富的智能应用场景,具有巨大的社会价值。我们希望与更多的学术界人共同探索相关领域。

(本报告根据速记整理)

CAAI原创 丨 作者饶峰云
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会