数字图书馆

GAITC 2021 智媒论坛丨曹立宏教授：AI和BI互助发展智能媒体任重道远

发布时间：2021-06-28

2021年6月6日，由中国人工智能学会主办，新浪新闻联合中国传媒大学共同承办的2021全球人工智能技术大会（GAITC）“发展与挑战”智能媒体专题论坛在杭州举行。CAAI智能传媒专委会副主任、中国传媒大学脑科学与智能媒体研究院院长曹立宏教授，微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍先生共同担任论坛主席。曹立宏教授在本次论坛上，与来自业界、学术界的嘉宾们分享了《有关媒体的进脑入心问题》。

曹立宏教授作主题演讲

曹立宏教授在致辞中表示，“媒体的进脑入心问题还面临着许多挑战。过去解决的是媒体的传输问题（多、快、好、省），现在要解决媒体的融合与吸收问题，要从脑科学与人工智能的角度看待这些挑战，并探讨可能的途径。”

曹立宏教授认为，AI2.0和BI（Brain Intelligence）有明显的区别。媒体的目的是为人（脑）服务，AI却不一定是。智能媒体的愿景是：发展为人脑所用并受益的智能媒体技术和内容，发展类脑智能是发展智能媒体的重要途径之一。发展类脑智能，可以从几个方面入手：从感知到认知、从动物到人类、从婴儿到成人、需要具身交互的环境。另外，AI和BI可以互助发展。进脑入心，并非易事。智能媒体，任重道远。

以下为曹立宏教授演讲实录，内容经编辑略有删减：

很高兴有这样一个机会跟大家交流。今天我想了一个题目《有关媒体的进脑入心的问题》。我自己主要做脑科学与智能媒体。怎么样能够真正让媒体进脑入心？我想我关心的问题，也是很多媒体界的朋友所关心的问题。这个是人工智能的大会，所以有必要说一下人工智能和智能媒体之间的一些差异。

人工智能有很多正面的影响，例如创建了数字世界等。但也产生了一些问题，我们今天在这里并不去关心这些问题。如果做个小结，人工智能使得媒体更贴近了大脑，未来可能能够直接接入大脑。但是有一件事情特别重要，我们收到媒体的信息，不等于吸收到了媒体希望你吸收的信息，也就是说进脑不一定入心。从这一点可以看到，很多企业为了争夺眼球，但实际上丢了品牌。在这里必须说一下新浪能够有今天的品牌，能够体会到它对品牌的重视。另外，我们也能体会到非主流和主流媒体之间，在信任度上还是有很大的差异。

人工智能其实是给机器人进行赋能，尤其是现在的人工智能。但智能媒体需要给真实的人赋能，所以智能媒体更需要来关注人脑。

如果我们对现在的AI2.0，基于Deep Learning的技术做进一步的了解的话，会发现是对大脑的感知做了在数学上称之为“一级逼近”。

AI2.0几大贡献，首先是各种各样的识别。如果把脑的网络结构整理出来，实际上受大脑的启发找到一种参数的模型。增强学习可以说是找到了一种学习的策略，而NLP自然语言处理，很核心的一件事情是发明了“词向量”。通过以上，再加上大数据，高算力进行高维空间的几何变化，曲线、曲面的拟合，再进行优化计算。所以，完全是受到了大脑启发，但有时脱离现实情况。

数学上的很多假设在现实情况下并不成立，造成类似于对抗攻击、开放环境下的困境，像连续学习不了，有灾难性遗忘的问题。另外机器虽然可以翻译，但它根本不能理解。有关媒体信息的进脑入心，我们先看看“进脑”的问题。进脑要以脑的评估为目标，而我们脑并不是简单的数学代价函数。

我简单说一下MPEG2的一个故事，我有一个大学同学，当年他们在数学上可以证明他们发明的一个压缩方法非常好，很有信心获得世界上MPEG2的标准，但结果没有获得。因为评标准的时候是用眼睛评的，是用人脑评的，所以数学上的最优标准并不一定是适合我们大脑的最优标准。

我们来看ABC三张图，A和B更像还是B和C更像？绝大多数人会认为A和B很像，实际情况是什么样的？如果让婴儿看这个图的话，会觉得B和C更接近一些。A和B怎么造出来的？是用模型，然后用光照，光照略有不同。对成人来说，会觉得这是同一个东西，只是光照不一样。但是从计算机的眼光看的话，会看到像素级别的不同。实际上，像素级别B和C更接近一些。所以，婴儿是看到了客观的东西，而我们成人没有。实际上，没有到成人，在七、八个月的时候就发生了。

脑的评估函数是什么？到现在也不是很确切，但有两件事情很重要：第一，大脑里面有很多反馈的连接，这是我们很主观的一大原因；第二，树突的复杂性是跟智能成正比的，例如老鼠、猫等，神经元的结构本身不一样，我们人脑有非常丰富的树突。

关于“入心”问题，不得不谈到意识。有张图在世界上很有名，有关意识研究的，从很多的研究情况看，大脑有片区域含有跟人的意识相关的物质。

光从意识看其实还是不够，要从意识到认知，因为必须进行记忆理解最后才有决策。一些动物是从感知到行为，它的认知方面比较差，像鱼不会记多少，猫也许并不能真的理解问题。

对于我们人类来说特别重要，是潜意识的力量。潜意识具有决定性的力量，“入心”其实需要进入潜意识。目前其实不太了解，是个难题，但是我们知道有这样一个现象，这是我们人和动物较大的区别。

我给大家介绍一个人类智能的重要标志，就是概念。人脑概念细胞的发现就在十五、六年之前，科学家发现在“MTL”的脑区有这样一些细胞，不同照片，不同角度，甚至黑板上写名字，甚至用男声或女声说这个名字，同一个细胞都会有类似的反应，也就是这个细胞我们在数学上可称之为“不动点”。事实上到后来发现，不但某个个体有这样的细胞，和它有关的个体还会产生关联，所以我们平常对事物的关联，如看到香蕉想到苹果，会有这样的现象。

这样的概念细胞，至今没有在动物的大脑中找到。我们一方面很期待，一方面确实没有找到，还在理论上不断的探索。概念细胞是如何形成的？要想回答这个问题，我们希望知道这个概念细胞到底是怎么形成的？有关这个问题，可以参考去年我们翻译的一本书，叫《遗忘的机器》，它的作者是发现概念细胞的科学家，现在也是欧洲科学院院士。

从原始初级概念到语言，从婴儿角度看的话，婴儿的第一个概念应该是妈妈，我想我们每一个人都有体会，但是我们也不确切知道是怎么形成的。它应该是很多感知信号的整合，目的是有用而且节能。

婴儿一开始是条件反射，没有很强的意识。整个过程是从条件反射到有意识的产生。如果仔细观察的话，两个月前的小孩儿很傻，在三四个月的时候会发现眼睛开始变得有神。另外，妈妈这样的概念来之非常不易，婴儿的视觉发育过程，一开始看不到很远，只能看到20公分左右，正好看得着妈妈的脸；一年左右的时候，才能看到整个全景。这个过程当中，妈妈的脸老是在变，不同的光照，不同的角度和声音，婴儿需要在不稳定的感知信号当中获取一个稳定的概念，也就是妈妈这样一个概念。

再从语言（+实践）到新的高级概念，有这样一些研究：我们日常语言的理解有着明显的具身体验特征。例如，我们拿瓶水，可能觉得有点渴、想要喝水。人脑在思考诸如Lick、pick、kick、square，这些词的时候，放在核磁共振里面做测试，会发现大脑皮层上的活动不一样，例如想到用脚“踢”的话，“踢”的那部分运动脑区响应会比较大。

在基础概念已经形成一些语言的情况下，再通过语言的组合可以触发新的概念。所以语言能够给我们带来想象，这一点非常重要。我们人之所以跟动物有很大的区别，通过语言，通过传媒可以产生新的想象，能够形成新的概念。所以语言的理解有可能就是体验的过程，当然这一点可以有更多的讨论。

我们有一个猜测：概念细胞的形成很可能跟语言有关。但仅仅猜测还不够，我们要去验证。怎么验证？我们很难用人脑去验证，所以做模拟实验，这也是类脑计算的一大使命。

我们做了这样一个试验。这是大概网络的框架，一开始我们把视听通过AI的做法提取一些特征，更重要的在后面，在MTL区域得到整合，再通过海马体（负责记忆这个环节）形成出来，这里面有多模态的整合、输出的整合、记忆的整合，最后产生概念，类似于人学习的能力。

有一个结果是：在2014年一篇脑科学的文章里面，有人对131个物种，在猴脑、人脑，做一些试验，做分类等。我们通过模拟也可以做“分类”。分类的结果：虽然里面有很多形似，也就是看上去很像的东西，但是用途不同，这些概念我们得到了非常好的区分。

图中的结果和大脑的电生理和行为实验结果基本上保持一致，说明模拟的还不错。

从概念模拟到自然语言理解的模拟，我们现在大概知道有这么几个情况在机器语言处理方面，包括GPT3，智源悟道2.0。但真正什么是语言的理解？我觉得还需要做到几方面：不懂会问；不犯常识性错误；会有思考过程；拥有具身体验。

这方面如果要模拟，就要考虑在大脑里面到底有关我们的语言脑网络有怎样的结构。这是可以做模拟的。有了这样一个结构，我们就可以根据脑网络组的情况，构造一个简单的网络，例如我们对视觉类的物体，苹果等，还有运动类的，踢、打等，去做适当的模拟。实际上在2016年的时候有人做了。这里的神经元，相当于“脑功能柱”，有明显的特征，脑功能柱是大家公认的。还有突触模型，有一个非常重要的规则叫Hebbian Rule，但光有规则还不够，还要加一些全局稳定因子。这样做发现真的很有意思，当我们把视觉概念输进去，或者把运动的语言输进去，会呈现出什么样的结果，这些结果跟实际上在大脑皮层上观测，发现结果有相当好的一致性。

我们又通过一个简单的六个脑区的模拟，例如在多模态学习中，学习的过程是多模态的，但是我们激发它的时候，完全可以单模态激发，这很像我们人的行为。另外，具有非常强的抗噪音和去遮挡的能力，我们自己也很惊讶， 50%以上的噪音和50%以上的遮挡都可以很好的处理掉。

最近还发现有一篇非常棒的论文，作者在计算机领域很有名。他受到脑的启发提出了一个大脑计算的理论，解决语言是怎么样构成的。概念首先来自于MTL脑区，然后把概念Copy到一个区域，把名词、动词、主语、宾语调过去，最关键的也是在我们的语言区Broca44和Broca45，整体句子Merge出来。但是反过来看，对整个句子怎么理解。因为所有的连接都是双向的，所以可以分解出来，最后通过概念又可以激发我们的具身系统，通过动作和感受等可以激发出来。

我们知道动物的脑很多地方很像人脑，但语言这方面，人这么厉害，别的动物这么差。通过模拟也能够模拟出好玩儿的现象。猴脑的连接和人脑的连接方式有差异，差异方式有基因决定的，我们把这些差异做到模型里去，会发现：第一，人脑语言脑区的活动强度比较高；另外，有几个脑区同步性会增加；最后一点，消失的速度会减慢。在语言当中我们是随时有记忆的，尤其像我们学校做播音主持的，讲话既有逻辑又有思想，需要靠强大的语言工作记忆系统。我想强调一下动力系统的重要性，人脑的动力系统是有时间维度在里面的，这一点跟目前的AI有很大的差别。

最后我想探讨一下自然语言理解的发育模型。在婴幼儿很早的时候，实际上在大脑里面有一条通路，第二条通路并不存在。但存在第一条通路，足以让听到模仿说话，也就是具备牙牙学语这样的能力。第二条通路伴随着自主语言的能力增强而增强，可以说第二条通路是练出来的，有先天也有后天巨大的作用。所以猜测：自主语言及其在环境中的具身体验实现了对语言的理解，并具有个性化特征。其实我们每个人对语言的理解不完全一样，取决于我们的文化，也取决于小时候的经验等。这些还有待模拟的验证。关于脑发育，去年我们也翻译了一本书，《构建大脑》，这里有很多脑发育的事情。回到主题“进脑入心”的核心堡垒，还有潜意识的问题。时间关系这里就不展开了，还有很多开放的问题。

最后作一个总结：AI2.0和BI（Brain Intelligence）有明显的区别。媒体的目的是为人（脑）服务，AI却不一定是。智能媒体的愿景是，发展为人脑所用并受益的智能媒体技术和内容，发展类脑智能是发展智能媒体的重要途径之一。发展类脑智能，可以从几个方面入手：从感知到认知，从动物到人类，从婴儿到成人，需要具身交互的环境。另外，AI和BI可以互助发展。进脑入心，并非易事。智能媒体，任重道远。谢谢大家！

转自新浪新闻

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

GAITC 2021 智媒论坛丨曹立宏教授：AI和BI互助发展智能媒体任重道远

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

GAITC 2021 智媒论坛丨曹立宏教授：AI和BI互助发展 智能媒体任重道远

GAITC 2021 智媒论坛丨曹立宏教授：AI和BI互助发展智能媒体任重道远