发布时间:2018-12-10
由中国人工智能学会主办,广州易间网络科技有限公司承办的2018第八届中国智能产业高峰论坛11 月17-18日在成都完美收官,论坛在两天的会议里带来了多场精彩报告。
此次小编为大家整理的是来自北京顶象技术有限公司合伙人、首席科学家施亮主题为《深度画像的反欺诈应用》的精彩演讲。
施亮
北京顶象技术有限公司合伙人、首席科学家
以下是施亮的演讲实录:
李康老师的演讲主要是针对人工智能使用框架本身的攻击,就是对人工智能自身的一个攻击。我在很多场合也听过李老师的演讲,但是今天听了之后心里还是有点发毛,其实我们是运用人工智能的技术来对抗黑产,如果碰到李老师这种针对AI工具自身的攻击,我觉得这样的攻击还是特别难防的。今天给大家带来的分享是想讲一下我们怎么使用人工智能技术去应对金融方面的欺诈场景。
首先介绍传统的用户画像技术,包括欺诈用户和正常用户的特征、画像的区别,以及如何通过机器学习的技术来分辨。传统的机器学习技术在这个领域应用也比较广泛,但是它存在一些缺点。第二个部分介绍关联网络图算法。第三部分是由于2017年到今年年初有一个深度学习运用于图算法的爆发期,所以给大家介绍一下深度学习图算法的技术,我们叫做深度画像。最后举几个实际工作中碰到的案例。
1. 传统的用户画像技术
传统的用户画像技术目前被广泛应用于金融领域。如图所示,左面主要是对用户的特征和属性的描述,例如收入、年龄、家庭的情况,这是简单的属性标签。右边是用户的行为,可以通过他的信用报告、贷款和还款的报告,以及转帐交易的行为,通过这些我们可以构造出用户的行为画像。
结合用户属性标签和行为画像,这就是传统画像主要基于的数据点,它是有些优势的。这种数据容易制定一些策略,从业务的角度理解出发,容易制定一些规则,也比较清晰。但是它有一个弱点,就是泛化能力比较弱。采用了一些机器学习的算法后,泛化能力得到了一定程度的加强。但是它没有考虑到用户之间的关系。传统的画像是在考虑用户单点的行为,在真正的行业中发现,用户之间会存在交互和关联关系。
2. 关联网络图算法
关联网络的传统算法分析用户之间的关联,比较早的尝试是对网络结构做一些分析,这种方法最早几十年前就有了,对图的分析,我给大家展示了两张图(见图1),最上面两张图中是对网络结构的展示,通过分析网络里是不是有特殊的结构等,这是比较早期的统计分析。在10年前此研究领域进入到半监督和无监督学习,当时这个研究方向是比较火爆的。中间两张图左图是半监督学习的一个例子。所谓半监督就是我们没有知道全部的样本,通过部分的样本学习出模型。这个图中开始只知道两个点,一个红色、一个蓝色,通过一些方法把信息根据图的结构向其他点进行传递,最后在这个图上可以对其他点也进行分类,这是一个半监督学习的典型例子。中间两张图右图是社区发现的一个例子,通过一些半监督学习最后可以做成这样一个个社区。
大约在5年前开始流行图嵌入学习的研究。图嵌入表示,一般流行的做法是把图中的点用向量进行表征,而且这个转换要符合和保留图的连接特征。在图上相临近的点,经过向量转化后,在向量的空间也是接近的,它们之间也有一定关系。经过向量的表征后可以做大量的算法,比如边的预测(link prediction),或者是分类、聚类的算法。在最下面这个图例中,我们用了一个图像的表征,是二维图像的表征,做了一个可视化的展示。可以看到图中接近的这些点,它们在二维空间中也是比较接近的。
图1
在机器学习算法进入深度学习的时代,用户有两个关切,一个是现在的关联网络也好,或者是关联网络支撑的反欺诈也好,是不是也能够沿用深度学习的技术,包括交互式、可视化的展示。前面李老师也讲了一些例子,我刚才讲传统画像技术里的特征是非常敏感的,如果想跨企业使用这些模型,会受到很大限制,因为你的模型特征是基于用户的很明显特征,比如收入状况、年龄状况等,对于企业之间的隔离,像做迁移学习都会受很大限制。基于这些限制,我们考虑引入深度学习技术。前面的例子是基于比较浅层神经网络的技术。图2列出的是目前比较流行的一些技术。现在的方法出得比较多,特别是像NIPS、AAAI上这类的文章比较多。最上面的图是根据它的拓扑关系和节点,用一个神经网络对每层进行表征,这是比较早的方法。中间的图,这个点其实是去看它的一度的邻居和两度的邻居,把一度的邻居和两度的邻居用深度学习核函数来表征,然后再做叠加。最下面这个图事一种叫GCN的算法,这是最近效果比较好的一个网络;也就是对每个点,通过一定方法,在每个点都用神经网络去模拟,然后在每层叠加形成一个深度网络。这个网络的好处就是它不仅对网络的连接关系进行embedding,也同时对节点的属性进行了embedding,这样出来的embedding结果会更加精确。
图2
所有的建模都是要有数据支撑的,我们做这个项目也不能做无米之炊,首要的问题是构建一个靠谱的网络,图3是我们的一个辅助技术。比如这个网络是通过一个同设备,我们叫做同设备指纹来界定,黑产对抗时,会对手机的APP进行攻击,会模拟这个APP产生一些数据,那么我们采集的APP数据就不靠谱,这时采用什么样的机器学习方法都没有用。传统对APP的保护,可以说是加固或者是代码的混淆,比较容易破解,破解快可能就是1小时。我们做了一个虚拟源码保护的技术,在一个虚拟层做的技术,其被破解的难度比较大,可以做到一机一密,而且在非常短的时间内做到密钥更换。
图3
这个端数据保护技术是支撑上面这一块网络构建(见图3),我们想要的是真实手机数据,这方面我们也在跟国内顶尖的厂商进行合作。因为手机上的内容比大家想象的要多得多,除了屏幕分辨率、CPU型号、APP的版本、操作系统等之外,还有一些其他东西。现在手机基本有陀螺仪、GPS,可能还有一些海拔压力计等,这些信息采集后我们首先会做同人的检测,包括中间会有一些力度、仰角、左右手、操作间隔等,目的是什么?就是判断你的手机是不是被篡改了,或者是不是模拟设备而不是真人在使用。另外一个点就是来看设备和设备之间的关系,也许从表面上看这两个设备不一样,其实我们通过模型来分析有可能是同一个模拟器产生的;或者是有一个网络在中间,可以进行网络连接的。图3是我们用的一些具体技术。
3. 案例
首先是传统风控的场景,这个案例是一个比较传统的一家银行信用卡收单的场景(见图4),这边是信用卡交易的整个流程,一个复杂的系统一定容易受到攻击。这个交易过程是非常复杂的,一张信用卡收单过程涉及5个单位——持卡人、发卡行、收单行、商户和清算中心,任何一个环节通讯的不协调,或者中间的一个漏洞都会给黑产造成可乘之机。比如一张卡,由读卡器一刷,然后做一个伪卡,这是卡的风险。清算中心,这里也是有风险,比如内部的内盗,或者是清算上的数据泄露风险。在商户和收单行之间,黑产也会做一些攻击,中间黑客可能利用时间差搞一些花样,在这当中,包括持卡消费的过程有很多攻击点,我大概列了一下,包括伪卡欺诈等进行的违法犯罪。
图4
下面给大家介绍一个传统的风控方案。首先在这个端上要防止猫池。猫池是黑产模拟手机端的一个设备,其有一个很大的面板上插着成百上千的手机卡,黑产攻击时我们要采用端防护的方法,这里涉及到一个安全SDK的防护和设备指纹的采集。数据服务,信息核验,黑白名单,你的设备IP是不是在黑名单,然后传统的画像策略、风险的评分等。设备指纹黑名单,这是数据上的黑白名单,大家可以简单理解成名单的服务。下一步就是风控策略,主要是一些规则,比如是不是违反了反洗钱的策略,是通过传统的统计学习来作出策略,在当前绝大部分的银行还是一个非常主流的策略。另外,一些大行以及互联网的银行已经开始运用机器学习的方法,比如评分卡的模型、反欺诈的分类模型等,它会做传统的数据处理、特征工程,然后做分类、异常检测、进行评估监控这样整个的过程。
在上面案例中,我们最后是用了一个机器学习的模型——GBDT的模型,效果也不错。它和前面所有的这些,我们叫做全链路的风控。机器学习是不可以单独做风控,这个机器学习是依赖风控链路来做的模型。
这里列举了案例中的优点,可以做实时防护。如GBDT模型上线之后速度比较快;另外在每一个风险点上也可以做及时调整,模型重新的训练也是可以的,根据不同的突发风险来做调整。其缺点,没有考虑到样本之间的关系,忽视了挖掘团伙风险。从欺诈本质来说,欺诈行为很难从一个点完成,因为获利有限,所以基本都是团伙来完成,这个模型没有考虑团伙作案。
下面介绍运用关联网络技术的交易反欺诈和反洗钱,这也是我们在一家银行里做的,图5所示的几个网络中,红色的点是用户,是两个蓝色和黄色网络的主要节点,黄色的点是手机号的节点,绿色所示的是设备指纹网络,通过技术就可以对欺诈和洗钱的网络模式进行挖掘。
图5
图6(a)~(c)是根据传统的图算法挖掘出来的图结果。图(a)是一个疑似洗钱的网络,两个黑色的点表示他们之间有大量的交易,或者是有大量的转帐。这个行有几千万的交易,从这张图中能够看出来,挖掘出可疑的子网——一个洗钱的网络。图(b)同样也是,只是形式不一样。图(c)是根据手机网络挖掘出来的异常,中间是一个手机号;这几个是设备指纹,一个手机号应该是对应一个指纹,我们发现不同的设备指纹对应了同一个手机号,说明它是有问题的。图(d)是我们应用了深度学习技术,银行给到我们的样本,红色的是我们认为有问题的部分,绿色觉得应该是正常的样本。通过图(d)可以看出,中间这部分黑产或者是欺诈的团伙他们的聚集性是很强的,中间还有一些空泡,很异常的点;正常用户其实是不会和他们太近,所以形成了这些空泡。
图6
第二个案例(见图7),它对应的是用户IP和设备的图,正常应该是一条直线,这部分和直线有很大的偏离,通过检测之后发现基本都是异常用户。下面的两个图是我们在做验证码攻防时的图,左边是个热力图,显示某种行为的出现频次;右边图红色的是已知好的样本,蓝色是未知的样本。可以看出,好的样本在中心都是比较有聚集性的;蓝色的散落在周边的,经过验证,基本都是异常或者恶意的访问行为。
图7
(本报告根据速记整理)
CAAI原创 丨 作者施亮
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会