发布时间:2020-12-04
11月14日至15日,由中国人工智能学会、嘉兴市人民政府主办,嘉兴市南湖区人民政府、嘉兴科技城管理委员会、浙江未来技术研究院(嘉兴)共同承办的2020第十届中国智能产业高峰论坛(CIIS 2020)在嘉兴南湖举办。在11月14日的主论坛上,CAAI 名誉副理事长、微众银行首席人工智能官、AAAI/ACM/IEEE/CAAI/AAAS Fellow杨强教授为我们带来了题为《人工智能的金融实践》的精彩演讲。
杨强
CAAI 名誉副理事长、微众银行首席人工智能官
AAAI/ACM/IEEE/CAAI/AAAS Fellow
以下是杨强教授的演讲实录:
今天的报告主要讲两个内容,一个是人工智能发展;另一个是如何在金融领域落地。
刚才已经听过很多同事回顾人工智能,我这里特别说一句,人工智能是一个博弈过程,这 60年的发展让我明白一件事,人和机器人之间的沟通是人工智能发展的一个战场,一开始我们认为可以通过逻辑学做这种沟通,现在逐渐认识到,这种沟通是需要用数据进行,所以人工智能这一波大发展依赖于数据。
一、人工智能发展
人工智能的发展,除了数据还有算法和算力,但是在现阶段离不开数据,如大家熟悉的AlphaGo,包括强化学习、深度学习,都是靠大数据来养的。引出了我下面的一个悖论,AI 力量来自大数据。但是每个人工作和生活中遇到的往往都是小数据,可以举很多例子。在法律、金融、医疗等,小数据的存在方式一个是数据、是分布式的,另外是数据的样本很少,特征也不够。我一直以来做的研究也就围绕下面两个问题,一个是如何能够打破数据孤岛,用联邦学习来解决;另外一个是如何解决人工智能的冷启动问题,以迁移学习来解决。
第一个问题,分散在各地的数据,能不能把它聚拢起来形成大数据?这是很难的一个问题。因为有各种问题,其中一个问题是法律的准则。现在全世界各地纷纷出台类似 GDPR 这样的法律法规,规定数据的收集与原始数据贡献者的认可是非常相关的,不可以把数据收集用在另外一个方向上,这是违法的。同时,数据又是核心的资产、核心的要素,一个企业的数据代表它的利益,所以它不愿意随便地分享给别人。我们也看到,在这些法规下,国内外一些从事数据的企业,纷纷受到罚款或惩罚,如谷歌和 Facebook。国内数据的法规也是日益全面,最近在征求一个数据安全管理办法草案的意见。
在这个前提下,我们想用技术解决这个问题,联邦学习应运而生。联邦学习主要思想就是“数据不动,模型动”,数据是“可用不可见”,现在用联邦学习的做法就是带着这个模型(像“羊”一样)到各地访问这些数据,而这些数据本身可以不出本地,这只羊可以走来走去。具体实现中,模型是怎么走来走去?我们让不同数据拥有方可以交换加密模型参数。这个方法可以用在很多终端场景(现在各个手机厂商纷纷建立联邦学习的团队,包括谷歌和国内的大厂商),每一个终端上可以训练一个部分模型,这个模型很粗略,因为数据很少。但是可以把得到的第一批参数用加密手段包装后运到云端;云端可以作为集成学习,集成学习了后,可以把结果下沉到终端。这个做法经过几轮以后,每个终端模型都可以得到更新,我们把它叫做横向联邦学习。特别要提的是联邦学习有一个综合性的学科,加密数学的基础也是非常重要。这里重点讲一下同态加密的进展。
我刚讲的谷歌率先在安卓系统实现了这样的 POC,用集成学习的平均模型的办法来更新。同理,在不同机构之间也有更新我们的模型的需求。这个模型就像一开始说的,是分散在各地的,是分布式的。很重要的一点是,我们不但要分析模型,同时要保证任何一方不能猜出对方的数据和对方的模型,所以在分布式学习的过程中也要保护参数。比如,在工业界经常使用的一个算法SecureBoost,横向、纵向都实现了联邦学习的模型。纵观整个行业来说,就有一个特性——跨学科、多领域。除了算法以外,还要安全合规,包括与政府的政数局沟通;还有安全专家、模型安全、计算机安全、网络安全、算法效率;也包括底层的设计、网络的设计、网络的芯片;包括网络的结构,技术应用和联盟机制。联邦学习要引入经济学模型,如何鼓励这些数据参与方有更多选择,而且大家都可以达到一个平衡;也就是它参与到一个最优的联盟里得到收益最多,通过激励加强黏性,这种黏性也是大家关心的。所以,在隐私计算方面我们看到三个主要流派,联邦学习被称为无党派,因为是从基础理论出发的;还有一种做法是从硬件,英特尔有一个 TEE 的安全环境,这个环境是在硬件层面完成的;还有一个是安全多方计算,是从计算最本质的层面来的,它的效率现在还是问题,但是它的应用面非常广。
在这个领域离不开开源平台,因为尤其是多方参与时,要保证你使用的工具安全、可靠,大家都要保护隐私,因此都希望这样的平台是开源的,能够透明。我们团队开源了第一个开源平台,这个平台有 2 000 多的贡献;同时建立了第一个国际标准,已在 2020 年 9 月正式通过,也是世界上第一个联邦学习的国际标准。联邦学习也为我们所畅想的理念——5G,提供了一个应用场景,而且这个应用场景成为一个关键点。5G 是一个很先进的通讯技术,但是各应用方包括设备生产商都有一个困扰难题,如何找到 5G 的应用场景。为什么说联邦学习提供了这样的场景,因为它提供了工业级别的互联网,也就是可以让不同企业通过联邦学习,在保护隐私的前提下技术合作。这种合作非常像我们用的微信,微信是个人之间建立一个网络,联邦学习之间是企业之间建立学习网络。我们做了各种试验,包括如何把边缘计算与 5G 和联邦学习相结合,包括推出了一个平台 FedEdge,以及边缘计算算法库、中层的算法库和上面的模型,权限、审计、管理都俱全。还有仓储管理,物流是从一个公司的仓库运到另外一个公司的仓库,在仓储的预测上需要准确,这个过程一定要用联邦学习来进行具体预测;在仓储管理方面,包括对银行贷款时进行质押,监管是非常重要。这是一个例子。这三个仓库环境是从 1~3,它们就需要做好决策,需要知道自己仓库里的饱和度,这时在不暴露仓库内部的前提下,允许发生这种精确预测。
二、人工智能如何在金融领域落地
人工智能在金融行业有各种各样的落地,比如风险控制,其实就是用户画像,画像可以告诉你,这个客户的需求是什么、信誉度是什么;还有客服,与周博士讲的场景类似;还有支付的场景、理赔的场景等。营销,在这些场景中遇到一个很大的困境,就是数据不够;而且这些数据往往都是跨行业的,在不同公司、不同行业之间,大家不敢把数据分享出来,已成为现在行业的一个巨大挑战。在这个挑战中也带来另外一个维度的问题,就是监管。如果能让某金融机构的内部运作变得透明,通过联邦学习能为它建模,监管也可以因此往前发展,变成更加智能的监管,往 3.0 的时代发展。这里我要特别地说,监管机构也在深入地了解联邦学习,如《2019 中国智能金融发展报告》特别有一章讨论联邦学习在金融的应用。
下面举几个案例。第一个案例是反洗钱。反洗钱很简单,就看一个金融的服务有没有洗钱的动作。洗钱都是跨行业的,比如在 20 个行业里都有一小笔业务发生,如果没有对全 20 个金融行业的业务有一个统观了解,就不能发现这样的现象,而联邦学习就可以发现它。
下面这些例子主要是回应这里列举的几个痛点。比如,因为数据的缺乏,金融行业的风险控制就有几个挑战,如缺乏客观主动性、数据没有涵盖 360 度的观察、数据包含很多非结构化数据,还有不是实时的数据。所有这些问题不仅存在于金融行业,在医学上、在教育上也有很多类似缺乏数据产生的类似问题。
我们已经做出来很多的,包括合作者,大家一起做出来很多案例。例如,金融业中的金融推荐,我们第一个推出了“联邦推荐”这样的概念算法;包括保险业,通过与企业合作,计算机视觉方面推出了一个平台,多个不同的视觉数据拥有方;这是库存预测和产品质押的例子;还有医疗健康,这也是我们最近和腾讯天衍实验室的脑卒中预测发现,通过几十家医院建立更准确的预测模型。
下面给大家讲一下我们的应用。
这个应用是我们拥有卫星上的很多数据。卫星上有很多定位卫星,我们差不多是最全的,因为现在全世界各地,包括我国都有一些卫星数据的出口,这些低空卫星拍摄图像以后,会把这些数据汇聚在几个专业的出口,我们几乎覆盖了所有这样的数据。为什么?因为有了这些数据我们可以做这些应用,包括评估资管行业风险、为信贷提供风险控制、为保险提供风险评分。在最下面都是各种各样的数据,包括卫星数据和移动数据,还有传统的财报数据。举例来说,某家银行接受一个贷款申请,贷款方要建一个工厂,到底这个工厂施工进度如何,过去是派一些人到现场访问,现在通过卫星图像从左到右可以看到它的进度,还可以看到物流的增长,由此可以预估它的产量产能。这里为什么与联邦学习和迁移学习相关?因为这样的图像往往是没有标注的,在缺乏标注的情况下,要把通过别处的知识建好的模型迁移到现在的问题场景中,这种迁移包括要去保护数据的隐私和安全。
这是我们做的一个银行保险风险监测系统,这里也包括利用了各个行业的大数据,通过联邦学习把它加以聚合,比如进行舆情监测、机构监测等,进行整个城市里企业的画像。
还有一个就是在保险业也可以通过卫星和卫星之间的分析,因为不同的卫星属于不同公司,他们之间有意愿合作,但是又不想把数据共享,解决的办法就是把模型贡献出来。这是一个模型共建的例子。
最下面的图中示出了受灾前后,受灾后有很多沼泽,我们可以预估受灾的程度、受灾的区域,以及主动、快速进行理赔。
最后就是可持续发展的风险评估,左边是卫星图,中间有两个大烟囱冒烟,造成了严重的大气污染。经过测试发现超标污染很可能受到国家罚款,也是这个企业的经营风险之一;而此风险如果提前几个月发现,就能使投资机构对它进行启动处理预案,也就可以促进可持续发展和绿色工业的发展。
最后给大家带来一个概念。在工业落地的前提下,多个数据方、跨企业合作非常重要,因此也催生了很多新应用的发明、发现,包括刚才说的风险控制、反洗钱,还有大量的使用卫星数据。
(本报告根据速记整理)
CAAI原创 丨 作者杨强教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会