数字图书馆

演讲实录丨CAAI名誉理事长李德毅院士：可交互、会学习、自成长是智能农机的硬核

发布时间：2023-01-04

近日，在以“农业无人农场”为主题的中国工程科技论坛上，中国工程院院士，欧亚科学院院士，中国人工智能学会和中国指挥与控制学会名誉理事长，中科原动力首席科学家李德毅院士应邀做题为《机器具身交互智能》的演讲。李德毅院士表示，智能机器不但把人从繁重的、重复性劳动中解脱出来，更好地符合相应工作岗位规范化要求，更重要的是可以暴力计算，人机交互协同创新。他认为，智能农机的硬核已经跃过了算力、算法和数据阶段，可交互、会学习、自成长是新一代智能机器的硬核。未来，教机器学习、作业，和机器一同学习、作业，将成为人们生活和工作的常态。机器和科学家、工程师可一同作出发明发现和创造。

本次报告的主要内容是将“具身智能”结合农机展开，分为以下三个部分：

1、深度学习应该在和外界实时的交互和迭代中完成。

2、通过具身控制和自动调节确保机器行为与环境的协同。

3、可交互、会学习、自成长是智能农机的硬核。

李德毅

CAAI名誉理事长

中国工程院院士

欧亚科学院院士

以下为李德毅院士演讲实录：

具身智能来源于英语Embodied Intelligence，由人工智能之父艾伦·麦席森·图灵（Alan Mathison Turing）于1948年提出，embodied即人体的，intelligence即智能，结合在一起即具身的、离不开人体的智能。同时，图灵还提出了另一个与其相对的概念Disembodied Intelligence，即体外智能、离开人体的智能，克劳德·艾尔伍德·香农（Claude Elwood Shannon）等人在1956年的达特茅斯会议上把该概念定义为人工智能（Artificial Intelligence）。

本次报告的题目——机器具身交互智能（Interactive Embodied Intelligence of Machines），即在具身智能的基础上加上交互（interactive）一词，以体现交互的重要性。

近日，OpenAI发布的ChatGPT人工智能模型能以对话的形式与人类进行互动，其能否替代Google搜索引起了科研人员的激烈讨论。其实，Chat就是谈话、聊天，麦拉宾法则指出，人的交互过程中有55%的信息通过视觉传达，如仪表、姿态、肢体语言等；有38%的信息通过听觉传达，如说话的语气、情感、语调、语速等；剩下只有7%来自纯粹的语义，而ChatGPT还是靠语义输入的，这部分仅占人类交互中的7%。

因此，交互在具身认知当中起很大的作用，具身智能是人类认知的源泉和归宿。人类认知始于行为和模仿，最早的肌体语言导致形象思维，行为是智能的外化表现，称为具身智能。肢体动作是无声的语言，舞者用行为表现艺术，机器用行为体现互动，汽车防抱死刹车系统（ABS）能够使车体动力学行为更快更准，智能灵巧手给老人端茶喂饭，表现出行为的温柔；无人驾驶的轮式机器人进入城市交通流中，如果行为动作怪异，不能识别交警手语和路人请求打车手势，人们是不会允许它上路的；车身必须体现出良好的位置感、方向感和地理认知能力，有良好的空间运动学行为，表现出的具身智能和驾驶员开车类似才能被认可，智能农机亦然。

一、深度学习应该在和外界实时的交互和迭代中完成

学习的结果是记忆，记忆智能优先于计算智能。深度学习的贡献在于使人工智能走上了一个新的台阶，打破了“算法长期被困在程序里”的封闭局面，打破了需要预写程序通过编译才能获得智能的传统方法，用标注代替记忆，从大数据中直接获得分类知识，用数据修改算法中的参数，开辟了机器学习的新纪元。

但深度学习存在先天的不可解释性，因此具有一定的局限性，目前主要体现在以下7个方面：

1、所有训练样本都是第三、第四等多方视角发散提供的，不具有时间序贯性，不是从机器本体的“我”出发、同一视角的主动感知；

2、鲜有多通道跨模态感知，尤其是视觉、语言和肢体行为的跨模态感知；

3、标注不可或缺且成本高，被戏说为“有多少人工，才有多少智能”；

4、没有体现注意力选择，没有得到当前工作记忆和长期记忆对新观察的指导；

5、通用性和鲁棒性差，存在数据偏见，容易受到对抗样本的欺骗；

6、采用超大模型、超大参数预训练大型神经网络，计算成本昂贵；

7、一旦部署于应用，就无法在运行时在线学习新知识。如果要求机器视觉识别新的图像对象，必须对模型修改并在新的数据上重新训练，智能难以自成长。

图灵奖获得者杨立昆（Yann LeCun）对深度学习的未来提出了一个工作设想，如图所示：模型含配置器、感知、世界模型、成本函数、短时记忆、行为者6个模块。核心是配置器的生成和调度，感知模块接收物理世界的传感器信号，估计当前系统状态；成本模块以能量最小为目标评价机器的行为；短时记忆负责提取世界模型的记忆，同时可加强或者微修饰世界模型，行为者模块根据当前系统状态计算动作指令并执行。这个模型很好，但缺少了人对机器的控制和交互，深度学习应该在和外界实时的交互和迭代中完成。

二、通过具身控制和自动调节确保机器行为与环境的协同

农机在田间耕作时要跟土地协同、田埂协同、植物协同。那么，怎样通过具身控制和自动调节，确保机器行为与环境的协同？

“图灵可计算”开创了机器暴力计算的先河。公元前200年，阿基米德把1700年前的圆周率精度从3.1提升到3.14，公元500年，祖冲之求得π值为3.141592，总计用了2400年，按图灵可计算模型设计的计算机把圆周率提升到小数点10¹²位，仅仅用了70年。算力的提升体现出图灵的伟大、暴力计算的伟大、暴力思维的伟大，但图灵机也有自身的局限。

机器具身智能中不可或缺的是多通道的跨模态交互。行为交互最能体现机器认知的试探和反馈，认知的机器要能在与环境的互动过程中学习和成长。但冯诺依曼计算机架构中只有输入/输出，且输出相比输入具有一定的时滞性，没有多通道跨模态的感知交互，这成为用计算机做智能机器的一个致命弱点，人类到了发明认知机的时候了。

认知的全部活动是“感知-认知-行为”的螺旋上升过程，认知不可能独立于感知和行为，我们要克服图灵机的两个局限：（1）孤立了认知，忽视了机器具身与环境的交互；（2）孤立了计算，忽视了记忆。

学习是一个交互的过程，其中有指导学习，还有自主学习。自然进化使人类具有了丰富的瞬时记忆，工作记忆和长期记忆的生物学基础，使人类有了时间的概念。时间是人类认知的奠基石，记忆保持了认知的连续和累积，人类才有了文明，才有了历史。人类靠记忆形成边界来约束思维，记忆先于计算、优于计算；因此，各智其智、智人之智、智智与共、多元认知、兼容并包，才是常态。我们不应该总是停留在“智能就是计算”的奇点上。

图灵24岁之后18年的学术思想使他成为“人工智能之父”。在42年的生命中，他24岁时写了图灵机，然后从24岁到42岁的18年间，他都在研究人工智能。他在1950年发表的历史文献《计算机械与智能》中，开宗明义地要大家考虑机器能否思维，他分析并驳斥了9种对思维机器的反对意见，主张教机器学习，只要机器在语言行为(对话)上和人没有明显差别，就是能思维或有智能了，这就是后来所称的“图灵测试”。他认为可以编制一个“儿童程序”，然后对其进行教育，以达到成人的智力水平。

但图灵的这一主张在全球包括中国，都没有得到足够的重视。以“儿童程序”为例，如何才能使其体现基因遗传的“幼儿认知核”？如何对机器进行教育，怎样指导机器的学习，如何让它自主学习？目前的研究还很不够。如果回顾图灵的9种反对思维机器意见的驳斥，会发现其与对当前人们对机器的恐惧的批评基本是同样的。

控制论之父诺伯特·维纳于1948年提出《控制论：动物和机器中控制与交互的科学》，他认为：“如果我们使用一台机器来实现我们的目标，但又不能有效地干预其运作方式......那么我们最好能确定输入给机器的目标是我们真正所预期的。” 因此，麦卡锡认为：“人工智能本应该叫控制论，就是智能的自动化。” 诺伯特·维纳强调：“控制就是追求熵减，通过负反馈来确保机器具身行为智能的稳定性。”自动控制是强化学习的发源地，任何奖罚函数，可以与偏差为零的反馈控制等价。

我的团队十几年来一直致力于实现机器驾驶脑，其架构与图灵奖获得者杨立昆提出的架构实际上具有异曲同工之妙，如图所示。

在瞬时记忆里我们强调：定位传感器，特别是北斗&GPS等定位设备，要求能够达到厘米级导航；车姿传感器包括车身的加速度，速度；视觉传感器看图像，雷达传感器看距离、看路权。把这些信息进行跨模态的交互融合，形成当前的驾驶态势图，送入工作记忆。在人脑中还有长期记忆，即要有驾驶地图、交通规则、各类记忆棒。除此以外，还要有人机交互，要完成路径规划，要通过学习思维完成自主决策，要通过汽车的控制平台、三个总线执行汽车的运动行为。我们认为：深度学习将来要在实时的交互和迭代中完善和成长，不能仅仅是预训练、预编程。

ChatGPT在训练过程中高薪聘请了“提示工程师”，同理在农业机械自动驾驶中也需要“指导工程师”，即让农业技术专家来教授农业机械进行无人化作业。如图所示，物理空间用蓝色表示，认知空间用浅咖色表示，整个学习、推理过程都在物理空间和认知空间中进行。

在认知空间中，进行情境感知、跨模态融合形成瞬时记忆，在工作记忆中，通过当前态势的“判断黑板”，在记忆约束下进行计算，进而在当前环境下进行推理，如路口等待、超车换道等行为决策，同时在长期记忆里进行记忆提取，使用注意力选择、路权来改变当前的驾驶态势。而在物理空间中要实现车身控制，则由运动姿态传感器进行数据反馈，通过作业行为的反馈，使车身能够按决策行动，同时也感知周边环境数据，根据环境变化动态调整认知空间的输入。

因此，上图实际上是“感知-认知-行为”的物理模型架构图，通过嵌套的控制回路，人与机器能有效沟通完成预设任务，即“指导工程师”的任务——人教机器学，机器自主学，机器逐渐地理解人设定的任务目标，其统一的过程可称为使命对齐，精准完成作业，具身体现智能。

三、可交互、会学习、自成长是智能农机的硬核

智能农机的硬核已经跃过了算力、算法和数据阶段，更重要的是交互、学习和自成长。可交互、会学习、自成长是新一代智能机器的硬核。

回顾一下，农耕时代的工具和工业时代的机器为什么不会思维？

农耕时代工具的二要素说。工具里有实体物质和虚体结构，结构直接寄生在物质上，形成硬构体。什么是结构寄生在物质上？以农耕时代的轮子为例，轮子取自于天然的树干，人们用煣的工艺把它弯曲，使其符合圆的标准，并固定它的结构。这样一来它就不是一个简单的物质材料，而是一个工具，叫做轮子。在人类历史上，轮子的作用是可以跟火的发明相提并论的。

工业时代机器的三要素说。机器里有物质、能量和结构，结构直接寄生在物质和能量上，形成硬构体。以时钟为例，挥动的钟摆是一个结构，它直接寄生在物质和能量上，可以实现精准地走；蒸汽机、发动机的发明，都是把结构寄生在物质、能量上。可惜的是，工业时代的机器没有利用时间，以钟表为例，钟表的时间仅仅是其表面上一个读数。所以，爱因斯坦对时间的定义非常重要：时间仅是钟表表面的一个读数，因为其对钟表本身精致的运作没有做出贡献。

智能时代机器的四要素说。智能时代发生了重要的变化，智能时代机器的生命观可分为认知和行为两个层面来理解。智能时代的机器里有物质、能量、结构和时间；物质和能量是物理层面的真实存在，结构和时间是认知层面的抽象思维，用结构思维物质在空间的拓扑（几何）关系，用时间思维物质的运动与变化、能量的流动与转换。结构和时间寄生在物质和能量上成为硬构体，机器里中信息是大量的软构体，体现了精神，它们寄生在硬构体或者已有的其他软构体之上，可自举和自我复用，机器的秩序显示出维持自身和产生有序事件的能力，体现出思维和行为两个方面。以自动驾驶汽车为例，其硬构体包括车的底盘、集成电路芯片、驾驶脑，软构体（软件）包括驾驶脑程序、地图、交通规则等。因为有了时间，所以有了维持秩序的能力，机器能够实现自举的自动化工作，所以思维得以进行。

上图体现了物质、能量、结构和时间的关系：上半部分是认知空间，表示思维；下半部分是物理空间，表示行为。中间部分很重要，表示结构和时间寄生在物质和能量上形成硬构体。如轮子就是这样的硬构体，硬构体填补了物质和能量之间的鸿沟，使得信息和物质难舍难分。当前的集成电路芯片就是硬构体的爆品，成为人工智能“卡脖子”的代表。软构体非常丰富，有底层的，有上层的。软构体是思维的要素，支撑形象思维、逻辑(语言)思维和直觉思维，体现人的想象力和创造力，体现精神世界，有空间感、时间感和层次感。如果要为底层软构体命名，可称为符号、字母、笔划、数字、前后、左右、上下、顺序、快慢等。软构体不是自然语言，因为孩子没有学会语言之间已经有了思维，语言学家称之为“心语”。而概念、消息、信息和知识都是上层软构体，是物理世界在认知空间的镜像和上层建筑，是虚拟的现实。语言是人类思维的上层工具或常用载体。当前，人们把认知空间中想象的现实称为虚拟世界，把认知空间称为元宇宙。这样一来，我们用硬构体、软构体的思想填补了物质、能量和信息之间的鸿沟，物质、能量、结构和时间之间的纠缠状态，可类比为“薛定谔的猫”。

那么，智能到底是物质的还是精神的？以音乐为例：作曲家创造的乐谱是软构体，表达的是信息、情感、技巧、艺术、风格和人文；同一首乐谱可在不同硬构体（乐器）上表现出来，可用小提琴、二胡、钢琴、架子鼓等多种硬构体来支撑，不变的却是这个乐谱。乐谱是精神的、虚拟的、非物质的；人们在物理空间听到的乐曲是物质的、具身的，是客观存在的声音艺术，蕴含了物质、能量、结构和时间，这四要素的组合体现了美，也体现了知行合一。同时，硬构体可以局部软化成软构体，如虚拟机器人、虚拟主持人等；软构体也可以局部固化成硬构体，如图所示的实体机器人，中科原动力公司研发的可交互、会学习、自成长的轮式机器人等。物质和精神是互通的，但软件不能定义一切。

按照薛定谔的观点，用活细胞的物理观来解释什么是生命，他认为生命是机器。按照他的思路，我们来解释机器为什么可以当做生命，称之为机器的生命观。如上图所示，生命的物理层对应机器的物质层，生命的生化层对应机器的能量和时钟，生命的生理层对应机器的电子电路和机器指令，生命的心理层对于机器的操作系统和中间件，生命的认知层对应机器的高层软件和数据。这就体现出物质、能量、结构、时间四要素的重要性：时钟依赖能量，时间依赖时钟，秩序依赖时间，软构体寄生在硬构体上，机器自举实现思维自动化，自我复用实现认知自成长。机器运行靠程序，程序靠时序，软件靠交互，时序和交互产生负熵，机器赖负熵为生。时钟不停，与外界交互不息，思维和认知不会停止。

通过查询了200多种关于“智能”的定义，我们认为，对于智能的定义可以放宽一些，不论是智能、认知或者思维，都可笼统地定义为：培养和传承解释解决预设问题的学习能力，以及解释解决现实问题的能力。

在认知空间里，能够实现认知思维能力，要通过计算智能和记忆智能；在物理空间里，能够实现具身交互能力，要通过感知智能和行为智能。感知与认知之间是不断地循环往复的。感知智能中的时空识别代表位置、导航和时间同步，以及还包括目标识别、人脸识别等。培养和传承解释解决预设问题的能力，其本质就是学习。学习是现实问题的一个子集，当问题得到解决后可形成知识，机器可以接受指导学习，同时自主学习。只有解释、解决了预设问题后，解决、解释现实问题能力才会增强，因此要解决在哪里、怎么做、为什么、是什么这四个问题。

智能农机在田间的学习和作业，包括先入为主、赋予任务、引导、释疑、解惑、交互认知、监督等有指导的学习。而自主学习是把指导学习的结果转为长期记忆的重要环节，例如复习功课、消化理解。如果简单地把指导学习称为有监督学习，自主学习称为无监督学习就过于简单化了。

因此，智能农机的学习应当包括三个环节：（1）农机手操作、机器人学习；（2）机器人操作，农机手干预；（3）机器人作业、机器人自学习。这三个过程不断循环迭代，实现有指导学习、半/弱指导学习、自主学习。事实上，所有的机器学习过程都应如此，过去的研究过分看重了L0到L5自动化的实现，而忽视了学习、交互和成长。

以商汤公司的“元萝卜”象棋博弈机器人为例，胡荣华、谢靖、顾博文三代象棋冠军与“元萝卜”博弈，机器人内置26关难度的棋力对战，设有100多个残局应对，自主观察棋局变化，推算走棋招数，取棋落子，拥有毫米级操作精度，秒级时间响应，“手眼”协同，走法干净，节奏紧凑，“三秦棋王”李小龙称赞“元萝卜”是一个非常好的对手和陪练。“元萝卜”已不再是一个”AlphaGo“的程序了，它是一个实体机器人，有手臂可以放棋子，有眼睛可以看棋盘，它最近打败了很多冠军，而它每下一盘棋实际上就接受了一次图灵测试。那么，有感知、有认知、有行为、可交互的“元萝卜”博弈机器人为什么没有语音交互呢？它会学习吗？如果把它放到一个象棋研究院，或跟象棋高手学习，它能够实现自成长、自创造吗？

具身智能在一次次图灵对话测试中迭代成长。图灵对话测试具有多样化和常态化的特点，而所有机器工作语言的原语言都是自然语言，因此图灵提出用对话来做图灵测试是非常有见解的。语言能力是机器智能的杰出表现，而特定领域机器工作语言的语音、文字、符号具有限制性，用自然语言表达的公理来约束，其在一定程度上可以被形式化，以数学为甚、物理学次之，均服从哥德尔的不完备定理。因此机器思维先要把其工作语言形式化，只有形式化才可机械化，而后自动化。一旦自动化，思维的深度就一定会超越人。

如上图所示，图灵测试可应用于多个学科和领域。在社区聊天，可以做对话的图灵测试；在文学语言中，可以做虚拟演员的图灵测试；在游戏语言中可以做围棋的图灵测试；在数学语言中可以做机器定理证明；在美术语言中可以做机器作画的图灵测试；在唐诗宋词中可以做机器写作图灵测试；在法律语言可以做机器律师咨询的图灵测试；那么，在物理学语言里我们可以做智能农机的图灵测试，因此智能农机要一定要有语音交互，未来图灵对话测试一定会多样化、常态化。

思维的本质是抽象和联想，更多的是软构体的创立和连接。智能机器在常态化的图灵测试中学习，变为具身的智能。机器越来越多地取代人类曾经的许多智力和技巧工作，对各行各业特定岗位上的机器的教育训练是个并不轻松的任务。教机器学习、作业，和机器一同学习、作业，将成为人们生活和工作的常态。学习的结果是去微调机器里的长期记忆，即微调人工智痕细胞的网络拓扑，自主学习是把工作记忆转化为长期记忆的重要环节，可喜的是机器可以大批量复制，而且机器自身又可以持续学习。与机器交互，人教机器，机器教人，协同创新，总有一天出现机器工程师创造出新材料的配方，机器科学家提出新的假设，驱动产生新的科学发现。

机器具身交互智能，是从学习到创造的智能。智能机器之于人类智能，就如同曾经的望远镜之于天文学家、显微镜之于生物学家。机器延伸和拓展了人的记忆智能和计算智能，不但把人从繁重的、重复性劳动中解脱出来，更好地符合相应工作岗位规范化要求，更重要的是可以暴力计算，人机交互协同创新，机器和科学家、工程师可一同作出发明、发现和创造，至于是不是机器做出的创造，人们已经不再计较。

作者李德毅院士

未经授权严禁转载及翻译

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

演讲实录丨CAAI名誉理事长李德毅院士：可交互、会学习、自成长是智能农机的硬核