数字图书馆

CIIS 2018 演讲实录丨王昊奋：智能问答在企业计算中的机遇与挑战

发布时间：2018-12-12

由中国人工智能学会主办，广州易间网络科技有限公司承办的2018第八届中国智能产业高峰论坛11 月17-18日在成都完美收官，论坛在两天的会议里带来了多场精彩报告。

此次小编为大家整理的是来自上海乐言信息科技有限公司CTO王昊奋主题为《智能问答在企业计算中的机遇与挑战》的精彩演讲。

王昊奋

上海乐言信息科技有限公司CTO

以下是王昊奋的演讲实录：

企业计算是一个新名词，它有四项优势：第一，降低成本；第二，提高效率；第三，增加营收；第四，保障安全。

从典型的应用来说，首先是市场，企业计算在市场方面能增加潜在营收。市场比较关心的，一方面是受众和渠道的获取，即在客户留存和增加黏度这些方面如何提升；另一方面是内容的优化，即如何刺激大家冲动消费，真正提升客单价。常见的如信息流中的头条或者短视频网站，它们会结合用户本身足迹的数据，推荐一些热门的或者用户感兴趣的内容，这就是“猜你想”消费。

另一个应用是客户服务，传统方式的人工客服是一个劳动密集型+知识密集型的工作，人工客服流动性非常大，客户满意度不高。举个例子，“双十一”大家会问各种各样的问题，其中很大一部分是机械重复的，还有很多没有经过充分培训很难给出准确解答。现在出现了越来越多的在线客服平台，包括钉钉、旺旺、微信小程序等，传统服务模式受到冲击，新型服务向自助或者在线式转型，企业计算在客服领域能降低成本、提高效率。

再就是风险管控方面的应用，主要包括风险回避和损失控制等；也涉及一些反欺诈的识别，比如信用评级和评估，如芝麻信用就是作为互联网的指针，衡量用户信用情况的应用。

企业计算应用广泛，市场潜力巨大。对比中国2B市场和美国2B市场：占比方面，美国2B公司密度和营收情况接近40%，而中国仅有10%；公司方面，2C巨头美国有FAANG，中国有BAT，2B巨头美国有估值和市值百亿美金以上的IBM、MICROSOFT，但中国没有。2B是一个巨大的市场，这其中既有很大的机遇，也面临不小的挑战。

我们觉得有很多事情可以去做，搭建了一套智能咨询服务平台。我们不把它称之为问答平台，问答是偏技术的说法，业务人员不懂什么叫问答，我们叫做智能咨询平台，咨询是服务层面的。这个平台面向外部用户和内部用户，是一个2B结合2C的模式。通过赋能B端用户，提高C端服务质量。

面向外部用户，比如这个东西卖给谁？目标用户是谁？面向内部用户，比如，销售人员需要关心市场动态和发展趋势，业务人员需要知识采编审阅用于内部培训和交流，运营人员需要收集反馈和优化操作，我们都可以提供相应的辅助。为了实现这样的2B结合2C的模式，需要建立相应的知识库，主要从用户端、行业理解、企业内部业务系统三个方面对接输入，而后进行知识的获取，以及动态的跟踪和监控，这个过程中内部数据和外部数据要综合使用。

我们把这个平台的技术概括成两个引擎，第一，知识学习引擎；第二，语义理解的引擎。这其中人机协同也非常重要，2B行业的准确率要求接近100%，纯靠机器是做不到的，需要让人能更有效地参与，更好地贡献知识。阿里提出AI训练师，他与我们普通意义上的标注人员又有什么区别？这需要好好思考。

我们在企业计算的切入点是智能咨询，希望做的本质的东西是智能问答。智能问答有很多范式，2011、2012年出现了很多开元的知识库和吸引眼球的尝试，现阶段任何一项技术，都有其天花板及适用性，在一个技术不能打遍全场的情况下，需要有多引擎的问答，下面会具体讲解IRQA、KBQA和MRCQA的问题。我们会有三种类型数据，第一，文本数据，包括很多政策、法规的数据；第二，问答对数据，这类数据是相对容易获取的；第三，知识图谱数据，这类数据比较结构化。

问题生成本身非常零散，不是通过问答文本表述出来的，可以通过一定方式去生成所对应的问题，因为它的答案相对固定。另外，在真正使用智能问答时，需要综合考虑数据来源、数据规模和构建成本等方面。

从技术形态来看，基于知识图谱的问答就是KBQA，其中既包括传统的静态知识图谱，也包括各种各样事理图谱，剩下就是IRQA的内容，FAQ的部分是包含在IRQA里的。还有一些文本更适合MRC即机器阅读理解的方式。我们希望做到精确回答垂直领域的问题，但是这需要在本身的准确率、覆盖率，以及用户体验等很多方面做综合考虑，所以数据的来源，或者知识本身的形态会多种多样。我们希望更加友好的、直观可以判断的技术能够更好嵌入，来满足多引擎的需求。

以基金行业为例。IRQA的来源主要是业务人员积累的FAQ。例如，“申购基金什么时候确认呢”，这个的标准问答是“基金申购何时能够确认”。KBQA，比如“你们公司有几种货币型基金”，需要对用户的查询进行语义解析，并在知识图谱中查询推理得到答案。MRC，比如“开放式基金价格由什么因素决定”。我们做的MRC与现在流行的阅读理解比赛相比的区别是需要更往前一步，首先要知道用户的问题对应的是哪个或哪些文件；然后再进行文档检索、段落检索；最后是阅读匹配。

各种问答形态和技术不是孤立的，多引擎的问答会进行融合。IRQA擅长高频问题，数据要求是FAQ数据中存在和用户问题配对的FAQ，它的答案是静态存储的。KBQA需要非常正确的解析用户本身的问题，需要知识库里包含这些知识点。这些知识点不能是孤立的，需要有相应关联。MRC和IRQA的区别不是很大，它的好处在于减少了结构化的成本，而且生成的答案是动态的、粒度更加精细。

问答引擎是针对一问一答，要最终实现多轮对话，还需要相应的对话引擎。对话引擎主要涉及对话策略跟踪、对话策略学习等方面。IRQA会分成在线部分和离线部分。在线部分会转换多阶段的问题，第一阶段会使用搜索引擎做检索，而后是精排和筛查。很多时候仅仅得到一个排名结果是不够的，所以我们额外增加了一个部分筛查。离线部分需要对FAQ数据建立粗排索引，通过挖掘领域词和句式，运用生成方式，结合人工标注，如加噪等方式建立精排和筛查模型。第一步粗排模型非常重要，略过粗排这个步骤直接进行精排，结果往往不尽如人意。我们希望在更小的侯选空间里进行建模，这可以有很多的手段。一种手段可以是完全利用深度学习的方法去做，但现在更多是用一些整合的方式。基于IRQA有几种不同的模型，一种是面向表示的建模，这种端到端的建模比较简单，它的问题主要在于对数据的要求比较高，不适合冷启动，可解释性和可干预性也比较差。我们的创新在于从可解释的角度做特征工程，知识特征包括领域词之间上下位关系，还有对应的句式的内容，同时也会有通用领域训练、关系的迁移刻画等。

KBQA也是分成在线部分和离线部分。在线部分主要是问题的理解，问题理解之后有语义解析和执行回复生成。语义解析可以基于模板，通过语义理解可以转换成所对应的一些标注内容，将数据库存储的信息做转化和加固。除了人工撰写模板，也可以通过机器学习生成模板，然后人工进行审核。我们需要设计规则来生成标准问法，这是拓扑结构上的问题。问题匹配不到，或者匹配到的回答过于抽象，结果都是不能执行，都会影响召回率。乱回答会产生很多噪声，机器基于侯选级去做相应的计算，在这个过程中会用到单指令多数据的并行优化。

MRC比较简单。MRC是IRQA在最后一步精排和筛查里用了阅读理解模型，前面很多步骤和IRQA一样，只是具体匹配到的内容存在差别。本身文档或者段落的匹配，更像传统IR的任务，后面比较复杂的精细化模型都是通过表示层、输出层来做。MRC可以在反馈前对答案进行一定精简，给用户一个更智能更友好的体验。

前面提到了很多次语义解析，语言理解包括实体识别和链接、答案类型判断等，这里一个是意图理解问题，一个是双向序列标注问题。回复生成也会考虑很多内容，它是生成和回答相结合的内容。多轮对话的模式设计中，需要重视多用户管理和分发的问题。

具体的工程实践主要是四块，第一是数据收集；第二是模型更新；第三是上线发布；第四是反馈收集。数据获取通过技术层的领域词挖掘、数据标注和审核，针对不同类型的数据服务有不同的任务。模型更新包括领域的适配、索引的更新，以及数据的优化。智能导航包括热点问题推荐，另外还有一些相关实体问题推荐。反馈收集包括平台训练模型更新、日志更新等问题。另外还会有交互设计，其中导航的点击，以及对答案的采纳程度等都需要关注。在此之外，我们还会去做请求负载均衡、数据存取分流、服务质量控制等这些任务。

做智能问答，最希望做到拟人；第二是智能；第三是精准，希望精准度达到99%以上。我们的成效在于帮助企业节约人力，改善结果，提高转化率。目前在电商客服领域，每天服务300~400万人次，2018年“双十一”当天服务了2 366万人，创造了新的高度。我们希望“引领认知智能，跃升人类知识工作”不仅是一句口号，而是真正地去赋能企业，提升全人类。

（本报告根据速记整理）

CAAI原创丨作者王昊奋
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

CIIS 2018 演讲实录丨王昊奋：智能问答在企业计算中的机遇与挑战