数字图书馆

CIIS 2019 演讲实录丨于剑：从图灵测试谈起

发布时间：2019-11-05

10月26日-27日，由陕西省委网信办、陕西省工业和信息化厅、陕西省科学技术厅指导，中国人工智能学会主办，西安市委网信办、西安市科学技术局、西安国家民用航天产业基地管理委员会、京东云共同承办的2019第九届中国智能产业高峰论坛在“硬科技之都”——西安举办。在27日全国高校人工智能学院院长/系主任论坛上CAAI机器学习专委会副主任、北京交通大学人工智能研究院常务副院长、教授于剑为我们带来了题为“从图灵测试谈起”的精彩演讲。

于剑

CAAI机器学习专委会副主任

北京交通大学人工智能研究院常务副院长、教授

以下是于剑教授的演讲实录：

谈人工智能避不开图灵测试。可以从多个角度分析图灵测试，本报告《从图灵测试谈起》将从三个层次论述图灵测试。

一、何为图灵测试

最原始的图灵测试中被模拟的对象是女人，看看机器是否能够模拟一个女人，如果辨识者不能区分谁是机器谁是女人，即通过测试。后来，被模拟的对象改为人，这就是常见的图灵测试。很多人认为这是现代人工智能的起源，并称图灵为人工智能之父。甚至，在1991年有人专门设计了一个奖，鼓励人们发明通过图灵测试的程序。到现在为止这个比赛每年都还在举行，还没有人获得最后的大奖。应该说，对比赛的批评也非常多，为什么会有批评？一会儿我会讲。

图灵测试能不能通过，或者通过的后果到底是什么？哲学家赛尔提出了一个思想实验“中文屋实验”，对此做出了一个极有意思的回答。赛尔明确指出，即使完全通过了图灵测试，实现的也只是人工智能，而不是人的智能。图灵认为，通过图灵测试，就辨别不出是人还是机器。中文屋实验却说，即使通过了图灵测试，也还不是人的智能。应该说这个指责是非常严厉的。这个指责在我看来大体也是成立的，我以前曾经讲过很多次，这里就不再多说了，也有很多这样的文章可以去看。

为什么通过了图灵测试也不算是人的智能呢？原因很简单，只是在符号上通过的测试，并不针对现实的意义进行标定。仅仅符号做对了，现实中不对的情形是非常多的。中国很早就有这样的故事，纸上谈兵。纸上谈兵的时候都对，不一定在现实中就一定能赢得战争。所以在1989年有人提出了完全的图灵测试，图灵测试一般叫做2T（Turing Test），而完全的图灵测试是3T(Total Turing Test)。在2T的时候要判断出哪个是机器、哪个是人，辨识者和实验对象是隔离的，彼此不能直接见面。而完全的图灵测试中，这个隔板被拆掉。有一个中国的故事可以用来说明3T图灵测试，就是著名的“真假美猴王”故事。这个故事讲的假美猴王，就通过了3T测试。至少从人工智能的角度看，是这样的。不知道哪个美猴王是真的，哪个是假的，谁都判断不出来。人们所谓的对于人工智能的恐惧，追踪到科学的文献，就是3T测试，中国人很早就想象出来了。

二、图灵测试中的预设

图灵测试假设了非常多的事实，但是这些假设在现实中并不一定成立。要知道图灵测试假设了什么，一定要看看图灵的生平。图灵生于1912年，1954年去世，这是个非常要害的时间，每个人都脱离不开时代的限制。他于1950年提出了图灵测试，维特根斯坦的《哲学研究》于1953年出版。现有的资料，没有显示图灵读过《哲学研究》，从时间段上看，图灵也没有机会读《哲学研究》。实际上，人们对于《哲学研究》的深入了解，特别是在哲学界以外，已经是上个世纪70年代以后。具体到人工智能界，了解《哲学研究》就更晚了。这是一个非常重要的事实。

在《哲学研究》以前，人们认为概念存在经典定义。一般情形下，如果某个概念没有经典定义，那么只能说明研究还不够深入，需要继续研究。在《哲学研究》以前，人们普遍相信概念存在经典定义，在这其中，希尔伯特的话最为经典最具代表性，，“我们必将发现，我们终将发现”。也就是说，对任何一个概念的经典定义，我们是必将发现，我们终将发现。

那什么是概念的经典表示呢？概念的经典表示有三部分组成。一是符号表示。任何一个概念都要有个名字，这就是概念的符号表示。二是内涵表示。就是用来定义概念的命题。如果是计算机系的学生，肯定知道。这个命题的概念，人们已经研究了2500多年，真正定型是在20世纪初，即命题是能判断真假的陈述句。三是外延表示，就是经典集合。举一个简单的例子，素数这个概念。其符号表示在中文是“素数”这两个字；其内涵表示是如下命题：只能够被1和自身整除的自然数。其外延表示是如下集合：｛1、2、3、5、7、11，13、17、19、23、29、……｝。如果任何概念都能够给出如上的经典表示，人工智能很多情况下就不那么难了。但是，得到概念的经典表示有时是非常困难的。

在《哲学研究》以后，一般的常识是认为概念不一定存在经典表示。维特根斯坦写了《哲学研究》那么一本书，号称西方哲学史上的天才，原因之一是因为他否定了我们延续了2500多年，一直这么默认假设的，概念存在经典表示这样一个观念。在《哲学研究》后，对于概念是否存在经典表示，这本身需要研究，不是所有的概念都不存在经典表示，也不是所有的概念都存在经典表示，存在不存在经典表示，每个概念需要单独研究。《哲学研究》中有个结论，日常生活中使用的大多数概念不存在经典表示。有了这些知识之后，再来讲图灵测试，就会发现味道完全不一样了。图灵测试原来的名称是模拟游戏，它使用的概念都是经典概念，那时候还没有人对概念存在不存在经典表示这个事情表示疑问。即使维特根斯坦出了《哲学研究》这本书以后，人们在此问题上达成共识也是上世纪70年代、80年代以后的事情。所以图灵测试中假设概念都有经典表示。图灵测试中最重要的概念有两个，一个是智能，一个是人。这两个存在不存在经典概念呢？

什么是智能？很多人给出了很多的定义。有很多的参考资料，这儿就不多说了。现在的共识是，智能无统一的定义，也就是智能这个概念没有经典表示。这个后遗症非常严重。导致只能设计侧面的实验比如图灵测试来判断是否具有智能。同样的，人在图灵测试中扮演了两个非常重要的角色，人在图灵测试中，不仅是被模仿对象，也是判决者。所以人这个概念需要明确定义。按照图灵生活时代的限制，“人“这个概念一定是存在经典表示的。实际情况如何呢？

历史上，很多哲人对于这个问题进行了研究。古希腊的普罗泰戈拉曾经说：人是万物的尺度，是存在的事物存在的尺度，也是不存在的事物不存在的尺度。对这个有很多批判，有各个角度，比如柏拉图的《泰阿泰德》。柏拉图自己也给出过“人”这个概念的一个定义。柏拉图认为：人是没有羽毛的两脚直立的动物。他的学生亚里士多德在听课的第二天，提着一只拔光了毛的鸡，对他的老师说，这就是人啊！所以这个定义只存活了一天，成为一个流传至今的段子。中国古代，对于如何定义人也有说法。《春秋谷梁传》中说：“人之所以为人者，言也”。而法国思想家拉梅特里说《人是机器》，这个我并不赞成。法国思想家帕斯卡说：“人是一根会思想的芦苇”，尼采说：“人是一条不洁的河”，这些更多是文学上的比喻，不是定义。马克思说：“人是一切社会关系的总和”。很多人认为马克思这个定义好，但这好像也不是人的严格定义，因为怎么定义社会关系呢？要定义社会关系，又要用人来定义，这是循环定义。循环定义，不为定义。卡西尔也是一位大哲学家，研究了一辈子如何来定义人，他说我们应当把人定义为符号的动物，这个也没有得到大家完全的认可。到现在为止，找不到人的统一定义，“人”这个概念没有经典定义。这导致图灵测试中的人没有了统一的标准或者一致的判据。因此，图灵测试不具有可重复性。

严格意义上，图灵测试有三个特点，第一，问题不限定。不限定任何的问题，任何问题都可以问，模仿内容或者任务是开放的，没有不可问的问题。第二，被模拟的人不限定。没有说模拟什么样的人，如果说模拟一个具体的人容易一些，而只说模拟一个抽象的人就比较麻烦，模拟具体的某某都代表不了人，只是人的一个样本。第三，语言不限定。在这里面没有说一定要是英语，如果你问一个泰国人，他是说泰语的，我用汉语来问，你说这个测试有意义吗？所以图灵测试是开放测试，工程上要实现，一定要封闭实现，必须要有限制才能实现，图灵测试只是思想实验，不能工程实现。实际上，设计一个好的思想试验也是有非常大的贡献，在此并不是要否定图灵的天才贡献。

一些人认为这是可操作实验，也有很多人认为这就是个科学小说。我们认为图灵测试就是一个思想实验，属于思想实验的范畴。

三、图灵测试的后果

图灵测试不是简单的概念，它的优点非常明显，避免了智能的内涵式定义和判定难题，将研究智能的重点放在智能的外在功能性表现，使得智能从工程上看似乎是可实现和判断。原始的图灵测试我们称为开式图灵测试，或者简称图灵测试。封闭条件下实现的图灵测试，我们称之为闭式图灵测试。模拟某个人，比如模拟奥巴马可以通过，但它带来的问题是模拟某个人是否合法、是否合乎伦理，人一旦定了以后语言也定了，任务也定了，像我懂得的东西实在太少，我也只会说汉语，英语说的磕磕巴巴，模拟我这个人即使通过了测试，也不是原始的图灵测试，而是闭式图灵测试。通过闭式图灵测试也是一项了不起的成就。

到目前为止，对于很多具体的任务来说，闭式图灵测试已经成功。闭式图灵测试的成功，已经给人们生活带来很多的便利。但是，通过闭式图灵测试，是否也会有重大的危害呢？

在现在生活中，闭式图灵测试比如机器写作、图像合成、视频合成、语音合成技术已经面向大众，鉴定数据真假已经成为目前亟待解决的问题。据说，目前全球互联网上只有不到60%的流量，是由真实的人类产生的。网上的很多内容也是假的。曾经的虚构文章《一个出身寒门的状元之死》，曾经的Bosstown dynamics的假机器人视频都曾经在微信上刷屏。日常生活中我们有美图秀秀，引起严重后果的有通俄门。这些事情已经引起了巨大的反响。现在Facebook发起Deepfake检测挑战赛，悬赏1000万美金，以AI技术打假AI。

说清楚了什么是图灵测试，图灵测试的预设和后果以后，就可以理清人工智能的一些问题。比如强人工智能，人类级人工智能，通用人工智能，超级人工智能这些现在很火的概念是否成立。虽然这些概念都是人工智能的先驱提出的，但是实际上，并没有实现的可能。原因也很简单，所有的上述人工智能至少要求通过原始的图灵测试，甚至要通过3T。比如超级人工智能，必须通过3T。现在2T都不可能实现，更别说3T。因此，强人工智能，人类级人工智能，通用人工智能，超级人工智能在工程意义下没有实现的可能。虽然只能实现即使闭式图灵测试，其造成的后果也不见得不严重。

最后小结一下，图灵测试是思想实验，不是工程实验。没有强弱人工智能，只有人工智能。因为强人工智能、人类级人工智能、通用人工智能、超级人工智能都没有工程实现的可能。以上是本人的粗浅观点，欢迎批评指正。我的报告到此结束，谢谢大家听我的报告！

（本报告根据速记整理）

CAAI原创丨作者于剑教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会

中国人工智能学会

演讲实录

CAAI会士专栏

GAITC 2021 演讲速记

GAITC 2020 演讲速记

GAITC 2019 演讲速记

GAITC 2018 演讲速记

GAITC 2017 演讲速记

GAITC 2016 演讲速记

CCAI 2022 演讲速记

CCAI 2021 演讲速记

CCAI 2020 演讲速记

CCAI 2019 演讲速记

CCAI 2018 演讲速记

CCAI 2017 演讲速记

CCAI 2016 演讲速记

CIIS 2020 演讲速记

CIIS 2019 演讲速记

CIIS 2018 演讲速记

CIIS 2017 演讲速记

CIIS 2016 演讲速记

CCIS 2019 演讲速记

CAAI人工智能大讲堂 2018

吴奖 2018 演讲速记

WRC 2017 演讲速记

CIEC 2016 演讲速记

2016“探寻大师足迹”系列第二站

2016“探寻大师足迹”系列第一站

CAAI AIDL 第八期（2019）

CAAI AIDL 第七期（2019）

CAAI AIDL 第二期（2017）

CAAI AIDL 第一期（2017）

CIIS 2019 演讲实录丨于剑：从图灵测试谈起