中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2017 智能金融分论坛实录丨朱英姿:机器学习与量化投资

发布时间:2017-05-31

微信图片_20210913135136.png

朱英姿
清华大学经济管理学院教授

以下是朱英姿教授的演讲实录:

我那天和柳博士在星巴克聊得很嗨,聊的就是策略,上次我们是3月份,现在是5月份,两个月过去了,我的想法有很大的改变。为什么现在我不嗨了,那次我们聊的时候正好我们在做一个机器学习的量化策略,当时东西刚出来我特别兴奋,弄出来的Sharpe Ratio我很兴奋,但是回过来我发现很多策略、很多机器学习的方法、很多学生每天在实验室里泡着,每天看着图像给一个例子,如果得到的图像不尽人意的话,他会在朋友圈里抱怨一下,凌晨十二点出来一个好图像,其他同学就给他欢呼,这就是现在在学校里做机器学习的一种倾向。后来我反思,这样做出来的东西我如何控制,我敢不敢用,这就是我两个月的思考,现在冷静下来了,我现在发掘策略本身不重要,机器学习是非常强的拟合搜索的引擎,非常强大,给任何的数据可以拟合出非常漂亮的曲线,但是这个不重要,重要的是怎么样控制过拟合,这就是今天我要讲的。

这是一个非常难的问题,在你不知道真实答案的时候,在你不知道这个市场上有多少钱可赚的时候,你不知道你的limit在哪里,当你不知道limit在哪里的时候很难控制Type II、Type I error。回答这个问题之前我知道这个问题在量化投资里永远没办法回答,刚才柳博士说深度学习,有些领域确实可以不在乎,在量化投资领域我们非常在乎,因为金融数据里信噪比是非常低的。当你在金融里做一个回归的时候如果能得到R2=2%、1%就非常高兴了,性噪比只有50-100。我从另一个角度看看别人怎么做的,美国人怎么做的,现在行业里的标准在怎么做,我还想看看这样的问题不光是量化投资里,物理学、生物学、药学里同样存在非常大的问题,我想看行业里到底怎么做,给我们量化投资未来在这个行业在这个方向有一些启示,这就是我今天要讲的。

我搜索了一下量化投资的商业模式,大概可以分这三种,我不说非常传统的从共同基金,我们就说从现在机器学习发展开始,引入量化投资以及量化投资飞速增长的这几年来看,我们到底有哪些模式。第一种模式,Smart beta,这个模式涵盖了所有过去传统的投资,包括基金、指数投资。Smart beta现在变得更加smarter,得益于机器学习,但是它如何控制它的过拟合,这是个行业的问题。现在所用的Smart beta有两个典型的公司,大家都知道,叫DFA和AQR,这两个公司是美国第一第二大基金,除了纯指数,这两个是基于主动和被动之间。他们大概的规模是几千亿美金。

第二种模式是Alpha factory,典型的代表公司,清华任何一个工科同学,对量化感兴趣的都知道。Alpha本身并不是一个新概念,如果你认为市场有钱赚,市场是非有效的,通过发现非有效性就可以去挖掘超额收益,Alpha就是超额收益。为什么会有factory,这就得益于机器学习。

最后一个是Data Science,就是王总公司所做的非常超前的领域,这是一种非常新的模式,但其还未成形,从数据手机到产生策略、进行组合到投入应用还有很长的路要走。

我们首先讲讲Smart Beta,也叫聪明Beta,它是在传统指数投资的基础上,采用系统性方法,对选股策略进行优化,达到跑赢传统指数投资目的的策略。举一个简单的例子,买小股票一定可以跑赢大股票,长期来看怎么看怎么好,只要有中国A股市场经验的人都知道小而美,但前年的十一月到十二月间月有一小段窗口期可能会有些辗转。我们可以通过不同的权重来做仓小盘股,从而获得超额回报。从Smart Beta的市场来说,这是一种被动投资,其优势就是管理费用低、信息透明度高,普通人在投资前不需要告知要做什么,这一点非常透明。以美国的经验来看,此类投资将会是主流。现在绝大部分的散户的钱,因为监管的原因,基本会投资在此类型产品中。但是如果我们重新定义Smart Beta,所有这些称之为指数型投资、Smart Beta型投资或者小股票型的投资,其本质特点是什么?规则事前已确定,在招股说明书中也已确定投资人。从小股票指数开始,所有内容都写在了学术文件中,可随时查询,所有人都知道他在做什么,市场上谁做得最好,谁的规模最大。

我们所讨论的机器学习方法,也是在选择一种规则,这种规则要在投资前就确定好,要将各样策略的测试呈现给投资人,投资人根据策略测试的结果进行投资。目前这个行业最大的问题,即如何判断策略测试的结果是否有效。

Smart Beta是金融资产定价理论的直接产物,这是一种采用因子模型的直接的机器学习。量化流程便可通过机器计量方法进行各种优化组合。当我刚开始接触机器学习的方法,我特别兴奋,因为它就是金融计量方法的延伸,可以从线性模型到非线性模型,低维度到高维度,运算速度非常快。可采用的工具很多,但所有的问题的核心仍然是数据。美国的可靠数据是从1929年开始收集的,而中国可靠的数据却是从1995年开始收集的,更可靠的股权分置改革以后的数据的收集时间就就更短了,仅仅只有10多年。因为我们的数据非常稀缺,我们非常珍惜数据。

若一个模型有95%的概率是正确的,这叫选择偏差。这是2000年诺贝尔经济学奖获得者Heckman的获奖成果,选择偏差在社会科学研究中广泛存在。以抛硬币为例,若抛硬币十次,硬币都是正面朝上的概率非常小,重复实验两次,概率依然很小,实验十次呢?实验一千次一万次呢?则在这一万次连抛十枚硬币试验中出现一次硬币都是正面的概率会大大增加,抛的越多则能得到我们想要结果的概率会大大增加。这一点和我们做实验是一样的。若我们选择一个策略,不行,再继续实验,看看什么地方不对,这是我们一直在做的,也是各种各样的研究都在做的。这些工作以前是人工来做的,现在由计算机帮我们做,所有计算机都可哟在一秒钟内计算十万次,那么这个问题就非常严重了,如何控制不吻合的情况,如何使得结果可信,我们自己都不知道真正的范围在哪里,这是个严重的问题。

我们来看一下其他领域怎么做的。我以前是学粒子物理的,粒子物理的实验噪声非常大,两倍的T是不够的,那T等于3够不够?T等于3是八几年做出来的,同行否掉了,这个领域4还是不够,最后一锤定音的是T等于5,那么得到准确结果的概率是多少?这就是我们同行做实验的标准。

在药品领域,国外有AllTrial Campaign,要进行各种实验,且要持续很多年。这样的实验一般都交由药企来做做,是存在选择性偏差的。我做的不好的就不告诉你,做好了再告诉你。所有的实验在操作之前都要告知公众是如何去做的,每次试验的结果也须公布,这才是所有的信息。我们这个行业进行此类控制非常困难,我不告诉你你就不知道,这需要制定标准,即实验前就需要告知想法从哪里来,需要做什么类型的实验。

这是一个很典型的美国数据,概率为0.92远远高于0.3,但它够不够?用更严格的统计检验来看是不够的,这是五年的数据,如果算T的话它到了3,从常规的角度来说它是可以接受的,但是实际是不够的。

机器学习总的来说在Type I和Type II之间,我们希望尾巴越短越好,T越高越好,当T越高,就可能失去了很多机会。蓝色曲线代表的是真实的,真正市场上可赚到的钱,以合法的方式可赚到的钱,最高也就是这个Sharpe率,标准越高这部分就失去了。这部分是真正的策略,但是它显示不出来。我们要保证所有数据清洗得很干净,不希望这些数据被反反复复使用,要告知实验的出发点是什么,基于行为金融或某些制度的缺陷,要告知其经济学理论和通过市场观察的结论是什么,不能反复使用,要告知实验需采用那些数据,实验计划进行次数,实验特点。从长期的非高频的角度来看,太高的Sharpe需重新审视。对样本外数据进行检验的统计方法,是行业中最热门的方法,如何设计各种检验方法,尽可能提升结论的可靠性的研究,一直在持续进行。

讲一下Alpha factory,这个模式很新。其典型代表是这位光头先生Spinoff,他是个白俄罗斯人,是Millenium的交易员,看上去就非常强势。他太优秀了,想要要自己干,公司说不行,你还留在我这吧,我给你机会,现在他还是Millenium的大股东。这个模型怎么样,从资管的角度来看他规模很小,但是其很有代表性。它是个Alpha factory,在全世界招最好的学生,也在印度等一些欠发达国家招募,这些学生招来后就在本地就有办公室,给他一个笔记本就能干活,他提供数据及各种回测的方式,这些学生或研究者在世界各个角落均可使用,我认为较低水平的Alpha信号都在他的数据库中,他说将来要搜集到100万的Alpha信号,他们抓取所有的信号,放到他的流水线上,这都是信号。他有一套方法能够把信号变成策略,把策略变成组合,然后把组合变成产品,这就是整个的一条流水线。

他的成功有两点。第一,他把世界上所有最好的头脑进行整合,他的人力资源分布在世界各地,我们的学者使用成本很低,印度的更低,他们把所有好的想法都召集起来,这些想法是海量的,但质量并不高。等会儿我说背后的逻辑是什么,这个逻辑和我们刚才的逻辑完全相反。他这样做得很成功,最关键的是他需要有一个很好的风险控制能力,做到在后台识别这个信号是真是假,这是他的商业模式里最秘密的部分,是不公开的。所有这些Alpha大家都知道,我们同学只要有一个同学做了,那么清华的所有工科生都会知道。

他的逻辑是什么?他的逻辑就是主动管理的法则。我若想达到期望的投资回报,一方面可以改进预测的手段、提升预测精度,这就是所有的理论、实验所要达到的目的。另一方面我不需要很高的IC,可以招很多人,做各种各样的实验。只要每个人是独立的,则做出来的东西就是独立的,BR就增加,可以用广度代替深度,这就是他的想法。如果在广度上下了工夫,在深度上可以放弃一些。深度最典型的代表是巴菲特,他投几个股票,一投就持股十几年,他有他的特色,很多人并做不到这一点。若方向正确,则只需要扩大广度,在全世界范围内找人来做,在他的平台上就可以实现这一点,因此平台集成是非常重要的。

最后一个是我最不了解的也是现在非常热门的一个。阿里、百度、腾讯都在这方面下工夫,他们有这样的优势。举个例子,一个公司如果有卫星云图,能够看到停车场上的停车情况,就能判断这个月的车辆销售额是多少,用各种各样的奇怪的大数据能就够大概地在他的年报或季报出来之前,得到公司相关的预测,只要在他之前就能预测出质量比较高的信号,那就可以战胜市场。

这种数据非常多,比如社交媒体数据、卫星云图的数据。在此引用Bridgewater CEO的话,它可以加速你的决策过程,但是如果大家只看到几个模型,他最终要走到产品这个模式还有很长一段路要走。我很兴奋我能在这个时点在这个领域里有一些工作,我认为当产品是公众产品时,其行业标准会更高,更加透明的标准会写在CFA的章程里。相对于人脑的计算能力,计算机做得更快,人要做的就是控制计算机做的事情,你告诉它要做什么,在事后要告诉它结论是否正确。当然这个过程还在做研究,研究完成后也可以自动进行。人要做的永远是那部分最难的工作,当它做完以后就可以自动化交给机器。在市场上,赚钱越来越难。清华里有很多搞机器学习的实验室、教授,他们对金融数据都特别感兴趣,他们认为金融数据好像是一个另类,和其他数据都不一样,这是他们的感受,我们大家都一起学习,谢谢大家。

主持人:谢谢朱教授,朱教授给我印象最深刻的就是气场,我感觉到了科学家的精神。如果你不和数据日夜纠缠,是做不好的,大数据维度很高、量很大,通过人的力量是很难完全获取。,在普通人的眼睛里,这个世界上根本不存在大数据,为什么?因为看你在哪一个层次看数据问题。如果你某在一种相对较低的层次上,是没有大数据的。炒股怎么能赚钱,大涨的时候大赚一笔,大跌的时候少亏一点,其他时候稀里糊涂。怎么评价量化的策略,要日夜纠结数据,不日夜纠结就焕发不出科学精神的气场。

(本报告根据速记整理)

CAAI原创 丨 作者朱英姿教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会