中国人工智能学会

Chinese Association for Artificial Intelligence

CCAI 2017 演讲实录 | 漆远: 金融智能的发展与应用

发布时间:2017-07-23

7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的 2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开。

7-1.jpg

漆远

蚂蚁金服副总裁兼首席数据科学家

在本次大会上,蚂蚁金服副总裁兼首席数据科学家漆远博士发表了主题为《金融智能的发展与应用》的演讲。漆远表示,蚂蚁金服今年的两个关键词,一个是“开放”,一个是“AI”。 

在此次演讲中,漆远从风控系统、智能助理、定损宝等产品案例出发,全面介绍了蚂蚁金服产品背后的 AI 技术。 

现场,蚂蚁金服的“模型服务平台”首次公开亮相,主打“模型所见即所得”。漆远表示,数据是资产,模型本身也是资产。未来,蚂蚁金服也会将这个平台作为其中一个AI能力向合作伙伴和客户开放。 

以下为漆远的演讲实录: 

今天很高兴给大家作一个分享,介绍一下AI在蚂蚁金服的发展和应用。

首先我会讲一讲为什么我们要做AI,为什么呢?因为AI离不开场景和数据,为什么要场景,因为我们要解决真正的问题,产生真正有意义的服务。在金融里面我们有大量的服务,从支付、保险、财富、到风控、微贷等各个领域,其中典型的场景就例如要判断某个小企业是否具备相应的信用能够承受贷款的风险。在所有的场景里面产生了海量的数据,而这些数据成为了人工智能的燃料,使得我们可以发展和应用一系列的人工智能技术。而这些场景、问题本身又为人工智能带来了挑战,比如说时间敏感要求一笔交易需要毫秒级完成判断。再如海量数据,一天几亿笔的数据,这就需要非常大规模的稳定的风控的系统。还有业务多样性,比如说怎么用迁移学习来发现不同任务之间的共性。再比如说系统性风险,系统可以用一个网络来表达,那你怎样从网络的角度分析问题。还有强数据安全和用户隐私保护也是金融业务本身的属性。 

面对这些挑战我们构建了一个金融智能的平台,从底层的图像理解,以及使用阿里巴巴集团的语音识别能力,在此之上发展了NLP的能力,然后这上面进行机器学习、深度学习,分析时间序列,比如说预测余额宝的利率变化;在最顶层,我们发展推理和决策的能力,使我们能够帮助我们的用户和金融合作伙伴做出明智的决策。 

在这个金融智能平台中包括了一系列的人工智能技术,比如说强化学习、无监督学习、图推理、共享学习。这些技术具备金融领域的实时对抗性、大规模以及安全加密性。 

今天讲几个例子,从例子出发讲讲背后的技术。在这之前,我先讲讲蚂蚁金服现在的两个关键词。蚂蚁金服我们定位为Techfin,而科技公司的一个核心的是什么?是AI。所以今年蚂蚁金服两个关键词,一个是“开放”,一个是“AI”,我们希望通过AI驱动所有的业务,同时作为科技公司,我们技术成熟一个开放一个,所以下面探讨的技术也是探讨如何开放给伙伴。 

首先是在安全风控中,里面有用户、设备、商家,他们之间通过资金流动形成互联。传统的风控技术中我们建立了很多的规则和模型。蚂蚁金服过去十年通过使用大量的机器学习建立强大的风控系统。但是今天我们希望进一步地升级风控系统。比如说可信模型,我们想判断有一笔交易是否存在账号被盗。而这里面我们使用了一个跨界的技术,其实就广告CTR预估的技术。 在2014年Facebook广告算法的文章中,讲的是GBDT+逻辑回归。使用我们开发的参数服务器技术,我们把逻辑回归换成了大规模深度学习,使用到风控里面: 通过GBDT产生特征,然后DNN继续学习。 因为在风控里面很多特征我们无法判断哪些有用哪些没有用,我们用GBDT产生海量特征然后把这些特征feed给深度学习模型。 

前面是说我们把GBDT和DNN结合起来考虑风控。深度学习往下走,我们也考虑关系,用户、商家、卖家等的关系,下面我举一个例子,我们通过embedding技术,把整个关系结合起来,形成图形网络,然后进行监督学习、加强学习。给大家看看例子,比如说支付宝账号的账户(行为),我们一个网络有好人、坏人,有设备比如说手机、计算机,iPad等,我判断今天这个人是否注册一个垃圾账号特别简单。我们可以把整个的图关系通过一个embedding的技术产生一个深度学习的网络,通过机器学习产生一个隐层表达,这个表达不光涵盖了每个节点自身复杂的特征,同时还对网络结构做了一个encoding。在垃圾账号的识别上,在经典的Recall-Precision曲线中,Precision越高越好,接近1就是完美。原来的规则是不具可采信的,现在我们对图使用embedding技术后有一个质的飞跃,Recall在70%、80%的时候,Precision达到90%,而原来的算法Precision在40%几,这基本相当于瞎猜。这个和以前的系统相比,Node2Vec也是非常先进了,我们在此基础上又做出了明显的提升。 

将图的关系和Feature结合起来,可以产生非常Power的模型,用在我们的模型里面。通过广告的算法提升了系统,我们进一步学习,将深度学习和图模型结合起来,可以融合网络关系与复杂特征。 

下面讲讲另外一个方向,在过去的很多年,不管是中国还是美国,讲起智能助理和机器人都是非常热的话题。这里对话很关键,在蚂蚁金服初始的对话从客服机器人开始,如果你使用支付宝,打开客服小蚂答可以问各种各样的问题,例如你问余额宝收益怎么算,他就给你一个这样一个答复,提供工具输入金额并计算。然后还有财富的理财渠道,你问某个企业业绩怎样就会开始进行舆情分析,舆情分析在金融里面非常多的应用,我们可以自动分析,海量的舆情在中国国内,为月新闻、周新闻相应地打出舆情分。 

下面讲两个技术,在对话机器人里面,在客服里面,假如问了这句话我怎样申请退钱回来,它是没有场景的。在问答系统中要理解它,就要真正知道在问什么,我们可以根据用户的近期操作,这些操作本身就提供了一个背景和场景。我们通过LSTM对用户行为轨迹做一个编码,然后整个模型是一个深度排序模型,比较哪个更相似,通过LSTM建立模型,把怎样申请退钱回来的用户问题,和转账转错怎么办和为什么银行卡转账被退回来,这两个进行答案匹配。我们给出正确的选择转账到账户错了怎么办。这里有一系列的创新。这些创新今天不一一讲。最后的结果,去年双十一智能客服自助率做到97%。同时今年我们问题解决率超过了人工客服,机器人回答问题比人回答更为满意。 

这里对舆情分析背后技术简单介绍,首先一个特别简单的模型,就是统计这些感情单元,同时又和深度学习的方法结合,最后产生整体的判断,这里面的话使用CNN,k-max pooling可以结合起来,还有TNN,将所有的信息结合起来进行一个综合的评价。 

刚才两个例子讲到对话机器人,第一个是客服,第二个是财富号的舆情分析。再就是保险,同时支付宝本身也在进行升级,您对支付宝可以说话,比如说我要给我的同事通过语音进行转账,自动完成转账并记录到账单里面。 

下面第三个讲机器学习平台,这是我们团队在阿里第一年开始做的工作,后来在蚂蚁继续和阿里集团合作开发。现在它是阿里和蚂蚁金服使用最广泛的大规模机器学习平台。2015年我们用于广告取得非常好的效果,后来用于淘宝推荐,前年用到双11推荐,今年又用到了蚂蚁的风控里面,其实它的核心技术就是我们能够通过系统和算法的结合,处理海量数据。所以在风控系统里面,我们可以在同样安全覆盖的情况下,提升召回率,每天一千多万笔可以准确轻松地通过审查。这个平台前年做到了,但是今年才写文章出来。它能支持100亿特征、千亿样本、万亿参数。这是说它可以支持非常多的数据和特征,我们能从数据中提取价值做出预测。 

假设非常多的数据,万亿参数非常耗能耗的,同时需要很多的机器。很多时间的applications,我们希望速度比较快比较省能源。在非常非常经典的矩阵分解中,相信很多做相关研究和做开发的同学都非常了解,如果我们把矩阵分解和哈希算法做结合,我们可以处理非常大的矩阵,比如说1亿×1千万的矩阵分解,我们2小时收敛,从工业界的角度具有非常大的价值。我们用到了口碑的场景中,点击率的升幅超过120%。 

刚才介绍的是机器学习,就是参数服务器,支持深度学习。下面再讲一个技术,我们的场景是营销,比如说各种各样的商家营销,怎样发,发给谁,这是非常有价值的商业问题。这里面我们开发了加强学习技术。在这个算法中,我们有State、Action和Reward的状态,我们定义了一个空间,State是从多个业务抽取特征,刻画用户状态,Action是对哪些卡片和渠道做了相关决策组合,Reward就是用户的点击和签约行为。整个框架是流式强化学习框架,所以能够实时实现Update。这上面讲了一个流程,比如说花呗准入,比如说它是否点入和签约,整个算法可以在框架上迭代,效果就是在深度学习基础上有更好的效果提升,比如推荐卡片点击率171%的增长和最终签约率149%的增长。 

刚才讲了加强学习,讲了深度学习,下面讲另外一个例子。如果每个技术都作为一个好用的工具开放出来,您只想用这个工具而不太深入技术本身怎么办?我们开发了一个模型服务平台,将整个模型训练给您可视化,您通过简单的点击、拖拽数据就能产生所有的结果。比如说您是开发应用的,您可以把算法在里面应用以后进行一键部署。当然如果您是开发算法的也可以写出新的算法,例如加强学习等,可以通过统一的平台进行服务。在蚂蚁金服内部,从芝麻信用到网商银行的借贷,到风控都正在全面地使用我们的平台。 

我们今天讲到了开放与AI,这里讲到蚂蚁金融云和开放平台,希望我们的AI技术的能力开放服务于我们的客户和合作伙伴。

这个模型服务平台简单来说我们就是模型所见即所得,不光数据是资产,模型本身也是资产。做到可视化的,对于用户来讲,提供给开发人员非常方便的建模方式,非常容易使用,不需要知道某一行公式怎样推导的,然后可以支持A/B测试,可以全流程地效果监控,同时跨团队地合作,并且可以实现多人同时开发。 

接下来简单展示训练模型时的一个视频。这是显示的分类结果,这是得出来的树状模型,然后可以进行效果评估,这里可以比较两个算法哪一个更好,拆分以后随便选两个算法自动评估,然后可以进行结果对比。我们以前在学校训练完模型,然后手工测试几个测试集就结束了,而在实际业界应用里一直有新的数据跑,新的预测,必须简洁好用。在我们说话的时候,这就产生了一个部署的API,大家如果有问题还可以看一个请求示例,示范如何使用这个API。部署完了以后我们要知道效果好不好,是不是一直稳定,比如我们要监控信用分,KS值,它是AUC的变种。我们可以看到它对每一天当时的效果实时进行监控。

刚才讲了整体的从模型训练到数据特征的产生,您可以从各种模块,到训练到部署产生API,到最后效果的监控,全流程地展示。 

那下面最后讲一个例子,前几周我们保险事业部和我们发布了一个产品叫“定损宝”,做什么呢?出了一个小车祸,照张像,哪里有问题,是撞了一个洞还是刮蹭进行判断,这是非常复杂的事。我们不是做 OCR识别,也不是做数字识别,但是我们要做检测,我们要检测哪个部件比如说车门、车灯还是bumper,我们要理解这个场景,比如说有一个缝,本身计算机不知道是车上的缝还是墙上的缝,还必须知道这个问题多么严重,最后是一个决策,将多个数据源结合起来,给用户和定损员一个辅助判断。看这张图像,您觉得车哪里有问题,我当时看了很久也没看出来,不知道大家怎样? 这里面有什么问题呢?如这里所示,有个特别微小的变形。但是这里我们要解决几个问题,第一个是问题在哪里,第二个你要把问题分几层,到底有多严重的问题,比如说这是轻度变形。有的变形了你得把整个部件换掉,有的稍微一修就修好了,最后告诉您修多少钱,在您的App里面把北京你所在位置附近的维修店全部选出来告诉您成本,您做一个决策是否要修。 下面举几个我们遇到的计算机视觉上的挑战。比如部件识别,这里面有多少个部件呢?我不是很专业,不算汽车爱好者,但是可以看出来这里有很多很多部件。所有的部件要找到,并且说有问题你都要看出来。再举个例子,左边一个强反光,强反光是不是有问题呢?我们要琢磨琢磨。还有,照相的时候人脸都对着框子里照,拍车照片的角度变化大很多。 

这个项目的开始和拿到初步的结果是算法团队和业务同学通力合作的结果。算法同学积极学习业务,从开始看不出来图像里车的问题,到现在都快成了专业的图像定损员了。我们的技术有一系列的流程,从噪音去除到类别识别到目标检测和程度判断,到底多严重,是变形还是刮蹭。根据很多张图片,最后我们要做预测结果的综合,综合以后我们做数据决策辅助,这要打通车的原件数据库来分析,假如这个部件坏了多少钱。全国有4500万案件/年, 60%的案件都是纯外观损伤的,它覆盖了非常大的比例。每个成本平均150块钱, 可以减少50%的作业量。 

今天我介绍了一系列的技术,以前我当老师写NSF proposals,都有两个目标要写,一个是intellectualmerits 就是技术的原创性,另外一个是broad impact,就是对世界的影响。一般第一个目标我们都拼命写,第二段都是那种来回贴的那种,为什么?因为当时在学校的研究里工业界有距离,缺乏直接的对世界产生影响的办法。今天我觉得学校可以和工业界合作,工业界有更多的数据,更大的问题更难的挑战,不仅应用技术还可以发展技术,今天介绍的只是一部分的技术,我们还有没有发布的技术。 

总结一下,今天讲了深度学习和图的结合,它主要是系统性风险的监测与预测;智能助理,我们达到了超越人满意度的智能客服。今天智能助理完成任务基于一系列的场景,因为支付宝我们是一系列的金融生活服务平台,今天就加上智能的定语叫智能的一系列的金融生活服务平台;今天也介绍了基于哈希的海量特征提取,完全是从工业的角度,希望算得快、便宜和省内存;另外是深度强化学习,在营销与推荐应用。在营销比较关键,如果只是深度学习那么总是给你想要的,但是加强学习您可以探索一个在exploitation 和exploration的平衡:给你以前推荐你看过的类似的,也可以给你没有看到的。 

下面说些我们和其他公司可能都面临的挑战,我们虽然有很多的数据,但是比起我们的业务问题复杂度还是不够,小数据、弱标注的数据的学习就很重要。另外,比如说怎样处理有噪音与不确定性的推理,专家系统是从逻辑推出来的,但是它不能handle真实世界里的噪音和异常情况,今天讲的Graph Emedding是一条路,但不是仅这一条还有其他的方向。然后机器学习里面还有一个很重要的问题是模型的可解释性,你要知道为什么,那在金融场景有非常多的应用,为什么信用分变低了你要给一个交代,就是解释,今天的深度学习缺乏解释性。还有如何从观测的而不是随机对比的数据中分析因果分析。还有长期目标与短期目标映射,怎样把长期的目标和短期做的目标结合起来。最后,非线性动态网络系统,网络本身在改变这里和物理学一些概念很相关,同时和图理论非常相关,这对风险、监控和交易都会很有用。 

最后,再次说,蚂蚁是一家做普惠金融的科技公司。我们主题的是开放与AI, 技术成熟一个开放一个。从客服到模型部署平台到其他的每一个案例,包括舆情平台,我们都非常愿意赋能和服务客户,和我们的合作伙伴、与我们的客户共同探讨和创造未来。 

谢谢大家! 

(本报告根据速记整理)

CAAI原创 丨 作者漆远

未经授权严禁转载及翻译

如需转载合作请向学会或本人申请

转发请注明转自中国人工智能学会