发布时间:2017-07-31
7 月 22 - 23 日,在中国科学技术协会、中国科学院的指导下,由中国人工智能学会、阿里巴巴集团 & 蚂蚁金服主办,CSDN、中国科学院自动化研究所承办的 2017 中国人工智能大会(CCAI 2017)在杭州国际会议中心盛大召开。
邓小铁
上海交通大学计算机系教授
在大会的智能金融论坛上,邓小铁教授发表了题为《金融博弈下的价值学习》的分享。
邓小铁现任上海交通大学计算机系致远讲席教授,曾获得清华大学工学学士学位、中国科学院硕士学位以及斯坦福大学博士,曾在英国利物浦大学、香港城市大学和加拿大约克大学任教。
在此之前, 他是西门弗雷泽大学的加拿大自然科学与工程技术研究理事会国际博士后研究员。因为对算法和博弈理论交互研究的贡献,于2008年获选ACM会士。2013年入选国家千人计划。
目前的重点研究算法博弈理论包括均衡分析和机制设计, 并应用于互联网经济学金融学。近期对机器学习方法论和博弈论方法论的交互应用极为关注,特别是竞争环境下的利益攸关个体之间基于数据的相互学习,以及在金融数据获取策略分析、最优动态对策和均衡分析的应用。
以下是邓小铁教授的演讲实录,AI科技大本营做了不改变原意的整理:
谢谢大家,很高兴有机会来到这里。
多代理环境下的博弈与学习
我们考虑的是多代理环境下的博弈与学习。对于通常情况下的机器学习,我们有很多的知识了解,那么在我们不知道的环境下该怎么处理?这种情况下我们考虑的是对抗性学习和博弈学习。这样的应用目前已经越来越多,特别是在金融和经济学里面。
关于对抗性学习,前面的报告提到GAN的网络,在这方面我们也可以考虑到反垃圾邮件的时候,filter要经常转变。
博弈学习是另外一种情况,博弈学习的时候,并不是完全对抗的,可能还会合作。在这种情况下我们对学习有什么样的理解。
这里最重要的一点是我们有时候并不知道价值究竟是什么样的。这种情况下,每个人的价值就是他自己的一种私有信息。在市场上,每个人有自己的追求和市场选择。在这里,我们可以讨论的问题一个是市场的均衡;还有一个比较流行的是在拍卖理论里面有诚实机制的分析。在这种程度上,我们有一定的知识和能力。
为什么要考虑这样的情况呢?因为这种情况在互联网竞技中非常常见。比如说,通常我们看到的搜索广告。一开始的时候大家并不知道在网上放一个广告能值多少钱。广告主投放广告以后,他们会得到越来越多的知识。这种情况下,就有一个相互学习的过程,使得我们知道它的价值究竟有多大。另外一个是我们可以经常看到的折扣设计,谁也不知道买家需要多少折扣才愿意买东西。
数据分析和贝叶斯推断
我们对这个问题的另外一个考虑是现在的数据科学。统计学通常包含两个部分,一个是学习,一个是统计推断。在学习的部分收集数据,收集数据后有一个方案是对数据进行建模。一种最简单的建模方式是均匀分布。另外一种经常用到的,特别是物理学、化学等自然科学用到的一种分布是高斯分布,还有经济学最常用的幂次率。对于这些不同的分布,我们逐步的知道它们越来越多的情况,可以说我们有一个知其然的过程,正态分布我们知道有大数定律在里面,所以我们也知道一些,但是对于幂次率我们并不是非常清楚地知道。
建模以后还有一个统计推断的过程,我们这里做决策分析。回想一下机器学习很重要的几个阶段,也可以在这里体现出来:第一,我们有了数据,然后建模,把数据分成两部分——训练数据和测试数据,通过这两个阶段做决策分析。
整个的框架我们也许问过为什么,但是需要比较严格的清清楚楚地将它仔细地分析一下。这里我用一个贝叶斯优化的方案来探讨一个例子,目标是在金融和经济学里面见到的很多的,是将我们的期望收益最大化。
贝叶斯最优拍卖
这是一个著名的Myerson最优拍卖的例子。第一步,Myerson的建议是,我们知道它的分布,怎么知道没有说,我们把他加进来,因为我们是学习这个价值分布。
大多数的情况,在互联网的环境下,这个事情都是我们自己做的。在这里我们有一个报价,然后运用一个机制设计来决定卖给你什么,收多少钱。这里,虚拟报价是根据真实报价算出来的一个值。
这样的话,在Myerson拍卖里面它确定赢家在虚拟报价最高的一列,那计算费用就等价于第二虚拟报价的赢家报价,这是一个非常简明扼要的方案。但是在互联网中,卖给你很多次以后,我知道你有一个底价,即虚拟报价等于0的那个就是底价。在贝叶斯最优拍卖里面也有这样一个值。
我们看看Myerson拍卖的时候怎么卖。
它的分布函数空间为:[0,a] 1>a>0
我们回去参考一下,或者是你相信我的话,虚拟报价是2x-a,当2x-a=0即x=a/2 当只有一个人的时候,你的报价大于a/2就赢得报价,你的付费就是a/2。
这样我们可以算出来你的付费是多少,你的期望收益是多少。你的期望收益在这里算出来的是一个常数减去a/4。你的最优策略是什么?你把a设为0,最优策略的收益是3/8。但是你诚实报价的时候a=1,你的诚实收益是1/8,这样的话,拍卖者就被你欺骗了。
在一般的情况下,我们有这么两个阶段。第一个阶段呢,在经济学理论分析中,它强调逻辑原则,也就是刚才我们讲的Myerson拍卖,它是假设知道你的分布。但是今天我们看到,数据范式里面非常强调数据,那么我们把这两个衔接起来就能发现以前的理论的弱点在哪里。
我们在这样一个均衡的情况下,刚才只讲了一个人的情况,如果是多个买家的情况,我们也可以得到一个最佳欺骗的分布。n趋向于无穷大的时候,a=1。也就是说,参与买卖东西的人很多的时候,我们会收敛到Myerson拍卖,卖家收入是得到真实报价的最优收入。这里有一点,卖家是对的,卖家要学习,学习以后能够得到最优拍卖,而买家要做strategy,结果得到自己2倍的真实报价最优收益。
今天我想讲的是最后一段,卖家要反复学习,买家要做strategy。