数字图书馆

GAITC 2017 AI变革时代的智能系统测评分论坛实录丨苏彦捷：智力测试与智能测评的对比思考

发布时间：2017-06-14

微信图片_20210913155641.png

苏彦捷
北京大学教授

以下是苏彦捷教授的演讲实录：

大家上午好。因为我是心理学方向，不是特别懂计算机的东西，像陈老师说的，我们13年很有可能开始一个合作，后来没有进行下来，我们希望来做一下机器人的智能测试。我想跟大家说为什么我对这个研发感兴趣，其实刚才陈老师也提到了，在学科交叉的过程中给我们提出了很多挑战，刚才几位老师讲的我觉得都跟心理学有关系。

因为我们做动物和人的比较，如果把机器人放在这样一个框架里面怎么理解这个问题，跟大家交流。我准备的内容还是有点多，会挑比较有意思的部分跟大家讨论。

陈老师说了机器人是自己跟自己比，我的想法是还是要放在框架里面比。我们觉得如果做智能测试，可能框架还是很重要的，你得有一个参照框架，你在什么样的框架里面来说拥有什么样的能力。我们提到的个体在一个毕生发展过程中，不同年龄段就是一个比较框架，动物和人也是一个比较框架，所以谈到比较一定要有一个框架。我们来讨论心理学当中的一个背景解释，说这两个巨人哪个大？我们从解释来说，感官有一个机制来告诉我后头那个大，但是如果没有框架，实际的东西大小是一样的，但是在背景上就会觉得后面的大，这是框架的作用。

我做的是命题作文，因为陈小平老师给我一个题目，智能测试和智能测评的对比思考。我稍微改了一点，因为我觉得很多时候不一定完全说得清楚，智能测试和智能系统测评，两个东西放在一块说一下。如果说到测评的话，肯定还需要说到怎么去界定这个东西。因为界定肯定是影响测评的。这是前提。我们来看怎么说人类或者机体的智力，因为也包括动物。涉及到个体，现在也有强调群体的智力，或者叫做组织的智力，智商。都是有机体，它有一个物质基础，是大脑活动的体现。会有一些具体的能力表现，在我们的人类心理学当中，对于智能的界定也是特别复杂的事情，各种各样的人，有各种各样界定，不同的界定就有不同的测试方法。我们做比较心理学的时候，有一个对智力的界定，包括三个方面：生物学意义上的智力，即大脑的能力，心理测量学意义上的智力，即智商的测定。还有就是成功的适应，就像刚才陈老师提到的，即你达到了什么样的目的。现在讲的智能系统，这些内容都是我学来的，因为为了参加这个会得想想您们会怎么说这些内容。

智能系统好像是一个机器的东西，是类人类的系统，能够产生像人类一样行为的系统，这是大家提到这个系统有别于其他系统的特点，其实它已经采取了人类解决问题的方法，是启发式的，不是绝对的计算。我们做智能比较的时候，如果做到动物的话，研究者把不同的动物放在一块。你看看，你觉得谁更聪明一点？如果让大学生做的话，是大概这样一个排队的情况。给动物智力一个从1到10分的评估，ape，9.2分，下面是7分、5分、6分，如果把可佳搁进来，你觉得它应该在哪儿？它一定得在这样的框架里面。因为心理学主要是对人类的理解，我们做动物就是为了给人类提供参照系。因为人会觉得自己是10分，把自己作为评价标准。

我们看人类的测评和动物的智能测评其实经历了很多阶段。最开始当成铁板一块，一般的智力，最后分成不同的方面，对于动物的测评学习了人类的方法，会把个体的能力分成不同方面。处理物理世界的，一般来讲称为物理认知，如果测量处理社会世界的能力，叫做社会认知或者社会智力。在做灵长类测评的时候，按照这样的框架分成物理认知测评和社会认知测评。做人的智力测评，有韦氏智力测量，包括成人的量表和儿童的量表。现在有用类似韦氏智力测验的方法对机器人，或者智能系统的测评，完全参考了这样一个方法。

我们说的做推理能力测试的有一个瑞文测试，更多的强调推理能力。这是推理能力的测试。刚才提到了心理学家对智力的认识是不断地进步的，逐渐发展认识，认为我们其实不能把智能看成只包括一个方面的内容，需要从不同的方面来理解智能。比如说刚才提到的，智能系统的语言理解，或者说推理能力，或者是一个纯粹的记忆能力。因为如果按照单纯记忆能力的话，我觉得人真的没法跟它比。前一阵诗词大会上，那么惹人喜欢的上海小姑娘，可以记住那么多诗词。如果让计算机来做这些任务蛮简单吧，只要把材料全部输出去，像诗词大会上那样出题，填空、补全等，智能系统会很容易，很快就能输出出来，所以要看怎么比，比什么。按照著名心理学家Sternberg（斯滕伯格）的智力理论，我们人的智能可以分成三个维度，实践的智力、分析的智力、创造性的智力。心理学家Gardner（加德纳）分成八个方面，这是转化成中国版本的，从不同的方面测评智能。将来做机器人的智能测评也得考虑这些方面，要分成不同的类型，这样才能够说得清楚，否则就很难说清楚。

我刚才提到了，因为跟陈小平老师当时13年开始想做机器人的智能测评，我们做了文献的调研。当时做的人很少，我们查到的一个美国的研究，做了智能机器人的测评，做的是物体的感知测评。因为它是一个硕士论文，在文献当中分析了有些智能测试在机器人当中很难实施，所以这篇论文只做了知觉推理测评，即机器人通过10种行为（Rattle, Grasp, Lift, Hold, Shake, Drop, Tap, Poke, Push, Press）知觉客体属性，并对这些属性进行推理以完成四套蒙台梭利客体配对和匹配任务。

目前国内的智能系统测试研究是。北京交通大学的课题组做的。基本上用的韦氏智力测氧测评的方式，出一些题目，比如有些常识的问题、计算的问题、排列的问题等等，每年都测。2014年做的测试，对人类三个不同年龄组（6岁、12岁、18岁），智能系统包括谷歌、百度等智能系统，其实测了50个这样的智能系统，加上人类的三组，大概是53个。我们只把前面分数列出来了。它的基本方法就是韦氏智力测验的方法。2015年、2016年都做了一些，2016年的结果是说这些智能系统的分数绝对值提高了，但是跟人类比起来还相差很远。

到底机器人和人差在什么地方？刚才提到了如果做人机交互，肯定要考虑到这个问题。因为我们智力不只是一个解题的能力，还有相互作用的，人际交往能力。而机器和人构成了人机交互，交互作用的问题还是要考虑进来。这是涉及到社会智力的问题。社会智力可能在现在的机器人当中考虑的还是比较有限，虽然有一些意图的推理，像刚才几位老师提到的，但是很多的意图，我们说只能意会，不能言传的东西，在机器人的理解当中是比较困难的问题。像人类的生活当中，其实常常不直接提出需求，你在饭桌上跟一个朋友说：“你能把盐递给我吗？”这不是询问能力的问题，我是想让你把盐递给我。个体间的交往需要这样对心理状态进行推理的能力。所以个体很早地时候就会有各种各样不同的表现。眼中读心，从各种表情中判断他的情绪，。还有幽默的表达，刚才刘挺老师提到了加个“的”字和不加“的”字，意思很不一样。我们实际生活中有很多幽默的表达，哪怕是同一个字或者词，表达的可能却是不同的意思。其实在人类生活当中我们觉得这是很自然的事，很容易理解。但是对它们机器人（智能系统）来说可能就是件很困难的事。我们觉得要记那么多东西很难，但是对于它们来说却是很简单的事。所以不能是绝对的比较，还要看比较什么。

刚才提到小冰，因为它也是我的一个学生参与的工作，从心理学的角度来谈。因为对话一定考虑他想听什么，我们的学生也说，其实这个小冰说的话都是前言不搭后语的。它说的东西不是按照你想要的东西来说。但是我们人类有特别重要的能力，我们能够解释成它像是要跟我说的话。像这个做诗的软件，做唐诗。你只能输入一个字，因为我们今天讲智能，我就输了一个“智”，一个“能”，结果给出的像是一首诗的样子。因为很像是人做的，就会觉得真好，你会解读成你需要的东西。5·20还有好多人用做诗软件，写各种各样的情诗出来，但是能不能做出像我们说的这种根据情境真情实意的流露。这是苏小妹和苏东坡互相调侃，这样简单的东西就是情境的东西，陈老师提到的环境、情境。做事软件做出的这些东西很难达到这样的水平。人和机器目前来看在这方面还是有差距的。

我们比较人和动物的时候，动物不是人，我们很难把人的智能赋予给它。现在机器人更是这样，它连生物有机体都不是的话，我们很难把它表现出来的东西归结为一个智能的，或者像我们这种人类智能的表现。我们怎么去理解它？从哪个层次理解它？这个的确是与挑战并存的，但是也给我们提供了很多机会，如果进行研究回答这样的问题，可以推进很多理论上的探讨。

回到界定。我们要做人类智力测试与智能系统测评这种比较的话，首先要界定不同的方面，从不同的方面做这样的比较。这种比较的意图和目的是什么，理解人类的智能和机器的智能。

这就是我希望和大家分享的，谢谢大家！

（本报告根据速记整理）

CAAI原创丨作者苏彦捷教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

GAITC 2017 AI变革时代的智能系统测评分论坛实录丨苏彦捷：智力测试与智能测评的对比思考