发布时间:2017-06-05
宋森
清华大学医学院教授
以下是宋森教授的演讲实录:
刚才讲到深度学习,脑环路和深度学习有一些可能有相似性,但有些是不同的地方。我的演讲有两部分内容,一方面我一直强调复杂科学对整个领域的影响,另外和它相关的话题就是大脑的连接结构。
一、我们是生活在一个复杂的世界里。
有空间、时间及时空的复杂性。什么叫复杂的?大家可能知道有个叫复杂性科学的领域90年代比较热,后来冷了一些。但是大家觉得这个领域还处于萌芽期,真正大放异彩的时候是在未来。概括起来说,复杂性有一些共同的特点,在看似复杂的过程中有一些规律,但是规律不是那么清晰的,现在更多是统计上的规律。我们能不能把他们提炼出来,像尧老师说的,在发现了很多东西后能不能变成有用的东西,这是这个领域再往下走可能最重要的事情。大家对复杂性的批判比如混沌理论是相关理论听了很多了,但是哪有根据混沌造的飞机,没有现实能用的例子,不像牛顿力学一发现,人类就能发火箭了,虽然相关工程化也经过了很长过程。
那为什么我还是觉得这个东西很重要呢?还是从深度学习说起。上次有一次做报告他们也问我,这次深度学习为什么能爆发?我觉得最重要的因为是大数据的作用,有了大数据,有了训练算法和计算能力,就有了深度学习,用很复杂的模型就能显著提高功能了。但是,世界是复杂的,世界里面数据量是呈长尾分布的。什么叫长尾分布?就是尾巴特别长,尾巴长就是不常见的事情如果加起来其实很多。对这些常见的事件,我们是有大数据的,用深度学习就行了。但是我们生活中存在足够多的不常见的事情,让你没法用深度学习就全部搞定了。总是有足够多不常见的事情。比如现在自动驾驶领域碰到这个问题,总是出现你以前没有想到的情况,而且这种情况还挺多的,不能忽略。
大脑是在这么一个世界里进化出来的,所以它对长尾不常见的事情一定有办法,比如用推理、可以猜,等有很多种办法,这是我们一定要考虑的问题,而不光是迷恋大数据。而大脑的特性本身也就有复杂性,所以在某种意义上他和这个世界是同构的。
具体来说大脑中常见的长尾分布有两种,一种叫幂律分布,最经典的就在帕雷多分布,富人总是很少的,但他们总是掌握很多钱。它最大的特点就是具有无尺度性,从哪个尺度看好像都长的差不多,很难说哪个尺度是关键的尺度,分型就是典型例子。这个分布在物理学上和一个叫混沌边缘的对应起来了,这是当年复杂性科学里面一个比较经典的成果。如图所示,当时用了一个非常简单的叫单元自动机来演示这个现象。用很简单的规则拼起来涌现看发生什么情况。有一个参数,你可以认为是复杂度。当它小的时候,就是很简单的行为。当复杂度很大的时候,已经变成完全不可控就是所谓的混沌状态了,完全不能预测下一刻会发生什么。但有一个很有意思的参数区间,在混沌的边缘就会出现比较复杂的,有点像分型的东西就出来了。所以有可能大脑就处在中间的状态,这也是为什么出现了很多长尾分布。
大家问了,中间的状态是很小的一个区域,其实完全更有可能处于比如完全不可控的发癫痫的混沌区域了,或者完全睡觉的,有可以预测的节律的出现的简单区域,但在工作状态中,日常中处理大脑事物上,大脑处在临界状态。这是怎么做到呢?这就需要有一个调控机制把大脑控制在这个区域上。这个参数区间很大,大部分情况要么发癫痫了,要么就睡觉了。这是北大现在的汤超老师,和per Bak在1988年很有名的一个沙堆模型的例子,可以看到大自然中其实大部分状态是处在这个临界的,因为再放沙堆就垮了,垮到临界的状态来,有一个自动回归的机制。它解释了为什么大自然中虽然这个参数区域很小,但是大自然中这样的系统是很常见的,有一套方法把它调回去。这是可以借鉴的方法。
在神经学上也有类似的现象发现就是神经雪崩现象,具体来说把神经元的发放看似沙堆垮下来的感觉,它的发放大部分是很小的,偶尔有一个大的发放,如果去统计发放的大小有幂律的分布。
大家想为什么我们大脑会经常处于临界状态呢?一个可能性是大脑具有兴奋和抑制的平衡,这个好像是现在的人工神经元网络没有太多讨论的,现在人工神经元网络没有把兴奋神经元和抑制神经元分开,它不具有单独的抑制能力。大脑可以通过调控兴奋抑制平衡,尤其是抑制性神经元是可以调控的,比如已知的结果,抑制性神经元功能太强就睡觉了。现在有很多研究,大概说在信息传输和记忆学习当网络处于临界态的时候有一定的好处,但是我不想仔细说那些内容。我觉得它最大的效果可能是没有完全被搞明白的,这可能跟人思维的方式有关。比如我们创造力的过程,经常是你自己苦思冥想但是你自己不知道在想什么,你的潜意识在不断酝酿可能是小的火花在闪耀,但一旦一个时间它们足够大了以后就会聚成一个大的火花,形成一个创造性的发明。我一直觉得这里好像有些什么重要的规律在里面,当然我还没有完全把这个搞明白。
二、对数高斯分布的大脑连接强度。
什么叫对数高斯分布呢?如果把这个分布取个对数就是高斯分布了。它的尾巴没有刚才说的幂律分布那么长,但这种现象也很常见,是为什么呢?有个很简单的原因,大家知道根据大数原则,如果把很多数加起来是个高斯分布,把很多数乘起来的方式就出现了一个对数高斯分布。
Buzsaki一个非常有名的神经科学家,2014年发过一个文章。他发现这个分布好像是大脑中非常常见的各处都出现的分布。我当年最先开始引入这个分布到神经科学,是说兴奋性神经元间连接的强度出现长尾分布,后来发现在抑制性神经元上也有这样的分布。
Buzsaki发现皮层神经元发放率也呈长尾分布,为什么会形成这种分布,仍然不是完全清楚的。
大家看到大脑中存在一些很多长尾分布,但是机制还是不清楚的,这是值得大家注意的大脑特性。.
下面我想介绍另一个话题。神经科学最近发展很快的领域就是大脑的连接结构,这个刚才尧教授谈到了。这是连接组这个词的发明人olaf sporns 2016年写的一篇文章,他提到根据现在已知的连接组学数据,可以得出两个非常重要的原则:1、他们都具备有一定的紧凑性;2、在局部之间通常有很强的长程连接。我们想这个有什么好处?首先局部的紧凑性可以减少布线的长度,像人的社会里也是有这样的组织,现在国家建特色小镇,把有特色的人放再一个地方,他们联系起来就方便了。第二如果全是孤立的小镇,小镇之间联系就不方便了,所以要建高速公路。现在看来包括我们大脑网络里面的很多网络所谓复杂网络都采取这种结构。
我想分这两个方面简单介绍一下神经科学上面的进展,这也是先从局部神经网络说起,也是我2005年那篇文章里的工作,我们从4个神经元里面研究他们的连接强度,我们发现如果4个神经元的小组分成几个2个或者3个的小组,发现2个神经元小组中两者互相连接的概率比随机网络大,3个神经元小组中和随机相比出现概率最异常的小组是三三相连的,这是它最重要的特性。 4个神经元是很小的数据了,扩展到十几个神经元数据上面也发现一样的规律,确实是很紧密连成一团的神经元。
这有什么功能上的意义呢?汤姆做了一系列的工作,在nature science上发了六七篇文章说这个问题。他用什么方法呢?他通过成像能够直接看到每个神经元功能特性是什么,然后通过切片的方法研究有这些特性神经元之间的连接功能是什么,他通过这个发现了一个规律,也比较好理解,连接比较强的神经元它们的功能特性差不多,有点像我们举个特色小镇的例子,它们想干的事情差不多,所以他们互相相连。
这是我想讲的最近学生做的工作,到底神经元网络的特性和能够不能通过深度学习来开始理解,所以我们也做了一个简单的例子,最简单的深度学习模型是没有反馈连接的,而大脑中反馈连接是很多的,一个问题大脑中反馈连接到底是干什么的?我是指同层之间的反馈连接。我们的工作很简单,相当于用一个类似于深度学习的结构,但是我们在同层之间引入反馈连接。为了更加贴近生物和简化问题,我们引入了column的概念,因为我们知道生物里是有column结构的,每个column都差不多。这样模型训练可以更容易一点。
数据集也比较简单,只是简单的图像分类数据集。也采取了BP算法进行训练,我们看结果是怎么样的,首先看在第一层上会出现什么神经元,会出现很多把它叫做simple neurons和comlplex neurons,这个如果粗看跟猴子的结构是比较类似的。
首先我们看模型出来的结果是不是跟实验结果对得上?简单说最右边的那块好像对得上,这是我们训练了很久后的结果,确实是出现了双双连接和三三连接的比较多。
同样我们也可以得到另外的现象,在column内部一致的神经元连接会更强,不一致的更弱一些。在column之间的连接也有一定的规律性,那些共线性的神经元连接更强一些,也就是说feedforward是这个方向的,recurrent连接也是这个方向。
折腾了半天,最后结果是什么呢?好像很奇怪,最简单的结果如果根据学习,反馈连接起一个线性放大的作用,同时起到collinear faclitation,说明初级神经皮层上面有些现象可以与CNN对应起来。
这是我们最近合作完成的一个工作,钱卓老师很早以前提出层级编码的模型,可能在层级中占有更高的地位,所以编码是广泛的概念。最近一个结果发现比较有意思的,层级编码对应2/3层和5/6层在大脑中不同的功能,2/3层神经元大部分只对一种刺激感兴趣,刚才说的概念细胞比较少,在5/6层这个又比较多了。我们可以看到以后也许有办法把这个概念推广出来,成为我们皮层的一个编码方式,这是比较有意思的。举个简单的例子,现在在深度学习的语言处理工作上,基本上采用LSTM,是一种线性的记忆,包括Google最近很热门neural turning machine的也是线性的记忆,大脑采取的这种层级编码方式很多时候都是可以用上,这是深度学习和神经科学可以对话的地方。
关于记忆最近还有一个很有意思的结果,这篇文章发现在海马里面,从前额叶的投射可以帮助你提取出海马里面的记忆。但比较有意思的是在提取记忆过程中是海马一些特殊的神经元先发放,再造成其他神经元的发放,海马中的枢纽节点神经元可能以一种类似指针的方式能够帮助提取储存在海马里面的记忆。还有一个比较有意思的结果,把枢纽神经元和脑电波对应起来了,不同大脑区域里面确实存在两类神经元,一类是刚才讲的编码的普遍信息的神经元,另外一个我们认为是枢纽的节点神经元,他们跟很多神经元都有连接,处在局部网络节点位置上。但他们发现一个比较有意思的结果,有点像尧老师说的,这些节点神经元互相连接的可能性更大,更有意思的是他们的发放是同步的,正好跟低频道脑电波是一致的,这些节点神经元会跟随低频道脑电波同步发放,另外一个网络却不会。这个让我们对大脑的构造原理更明白了一点,有点像高速公路的理念,长程的连接把各个脑协同起来,这些节点神经元再调用具体的神经元。
非常感谢大家,做个广告,清华有个类脑计算中心,我在里面主要负责神经科学和计算理论这一块。谢谢!
(本报告根据速记整理)
CAAI原创 丨 作者宋森教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会