中国人工智能学会

Chinese Association for Artificial Intelligence

CIIS 2019 演讲实录丨于剑:从图灵测试谈起

发布时间:2019-11-05

10月26日-27日,由陕西省委网信办、陕西省工业和信息化厅、陕西省科学技术厅指导,中国人工智能学会主办,西安市委网信办、西安市科学技术局、西安国家民用航天产业基地管理委员会、京东云共同承办的2019第九届中国智能产业高峰论坛在“硬科技之都”——西安举办。在27日全国高校人工智能学院院长/系主任论坛上CAAI机器学习专委会副主任、北京交通大学人工智能研究院常务副院长、教授于剑为我们带来了题为“从图灵测试谈起”的精彩演讲。 

33-1.jpg

于剑

CAAI机器学习专委会副主任

北京交通大学人工智能研究院常务副院长、教授

以下是于剑教授的演讲实录:    

谈人工智能避不开图灵测试。可以从多个角度分析图灵测试,本报告《从图灵测试谈起》将从三个层次论述图灵测试。 

一、何为图灵测试

最原始的图灵测试中被模拟的对象是女人,看看机器是否能够模拟一个女人,如果辨识者不能区分谁是机器谁是女人,即通过测试。后来,被模拟的对象改为人, 这就是常见的图灵测试。很多人认为这是现代人工智能的起源,并称图灵为人工智能之父。甚至,在1991年有人专门设计了一个奖,鼓励人们发明通过图灵测试的程序。到现在为止这个比赛每年都还在举行,还没有人获得最后的大奖。应该说,对比赛的批评也非常多,为什么会有批评?一会儿我会讲。 

图灵测试能不能通过,或者通过的后果到底是什么?哲学家赛尔提出了一个思想实验“中文屋实验”,对此做出了一个极有意思的回答。赛尔明确指出,即使完全通过了图灵测试,实现的也只是人工智能,而不是人的智能。图灵认为,通过图灵测试,就辨别不出是人还是机器。中文屋实验却说,即使通过了图灵测试,也还不是人的智能。应该说这个指责是非常严厉的。这个指责在我看来大体也是成立的,我以前曾经讲过很多次,这里就不再多说了,也有很多这样的文章可以去看。 

为什么通过了图灵测试也不算是人的智能呢?原因很简单, 只是在符号上通过的测试,并不针对现实的意义进行标定。仅仅符号做对了,现实中不对的情形是非常多的。中国很早就有这样的故事,纸上谈兵。纸上谈兵的时候都对,不一定在现实中就一定能赢得战争。所以在1989年有人提出了完全的图灵测试,图灵测试一般叫做2T(Turing Test),而完全的图灵测试是3T(Total Turing Test)。在2T的时候要判断出哪个是机器、哪个是人,辨识者和实验对象是隔离的,彼此不能直接见面。而完全的图灵测试中,这个隔板被拆掉。有一个中国的故事可以用来说明3T图灵测试,就是著名的“真假美猴王”故事。这个故事讲的假美猴王,就通过了3T测试。至少从人工智能的角度看,是这样的。不知道哪个美猴王是真的,哪个是假的,谁都判断不出来。人们所谓的对于人工智能的恐惧,追踪到科学的文献,就是3T测试,中国人很早就想象出来了。 

二、图灵测试中的预设

图灵测试假设了非常多的事实,但是这些假设在现实中并不一定成立。要知道图灵测试假设了什么,一定要看看图灵的生平。图灵生于1912年,1954年去世,这是个非常要害的时间,每个人都脱离不开时代的限制。他于1950年提出了图灵测试,维特根斯坦的《哲学研究》于1953年出版。现有的资料,没有显示图灵读过《哲学研究》, 从时间段上看, 图灵也没有机会读《哲学研究》。实际上,人们对于《哲学研究》的深入了解,特别是在哲学界以外,已经是上个世纪70年代以后。具体到人工智能界,了解《哲学研究》就更晚了。这是一个非常重要的事实。 

在《哲学研究》以前,人们认为概念存在经典定义。一般情形下,如果某个概念没有经典定义,那么只能说明研究还不够深入,需要继续研究。在《哲学研究》以前,人们普遍相信概念存在经典定义,在这其中,希尔伯特的话最为经典最具代表性,,“我们必将发现,我们终将发现”。也就是说,对任何一个概念的经典定义,我们是必将发现,我们终将发现。 

那什么是概念的经典表示呢?概念的经典表示有三部分组成。一是符号表示。任何一个概念都要有个名字,这就是概念的符号表示。二是内涵表示。就是用来定义概念的命题。如果是计算机系的学生,肯定知道。这个命题的概念,人们已经研究了2500多年,真正定型是在20世纪初,即命题是能判断真假的陈述句。三是外延表示,就是经典集合。举一个简单的例子,素数这个概念。其符号表示在中文是“素数”这两个字;其内涵表示是如下命题:只能够被1和自身整除的自然数。其外延表示是如下集合:{1、2、3、5、7、11,13、17、19、23、29、……}。如果任何概念都能够给出如上的经典表示,人工智能很多情况下就不那么难了。但是,得到概念的经典表示有时是非常困难的。 

在《哲学研究》以后,一般的常识是认为概念不一定存在经典表示。维特根斯坦写了《哲学研究》那么一本书,号称西方哲学史上的天才,原因之一是因为他否定了我们延续了2500多年,一直这么默认假设的,概念存在经典表示这样一个观念。在《哲学研究》后,对于概念是否存在经典表示,这本身需要研究,不是所有的概念都不存在经典表示,也不是所有的概念都存在经典表示,存在不存在经典表示,每个概念需要单独研究。《哲学研究》中有个结论,日常生活中使用的大多数概念不存在经典表示。有了这些知识之后,再来讲图灵测试,就会发现味道完全不一样了。图灵测试原来的名称是模拟游戏,它使用的概念都是经典概念,那时候还没有人对概念存在不存在经典表示这个事情表示疑问。即使维特根斯坦出了《哲学研究》这本书以后,人们在此问题上达成共识也是上世纪70年代、80年代以后的事情。所以图灵测试中假设概念都有经典表示。图灵测试中最重要的概念有两个,一个是智能,一个是人。这两个存在不存在经典概念呢? 

什么是智能?很多人给出了很多的定义。有很多的参考资料,这儿就不多说了。现在的共识是,智能无统一的定义,也就是智能这个概念没有经典表示。这个后遗症非常严重。导致只能设计侧面的实验比如图灵测试来判断是否具有智能。同样的,人在图灵测试中扮演了两个非常重要的角色,人在图灵测试中,不仅是被模仿对象,也是判决者。所以人这个概念需要明确定义。按照图灵生活时代的限制,“人“这个概念一定是存在经典表示的。实际情况如何呢? 

历史上,很多哲人对于这个问题进行了研究。古希腊的普罗泰戈拉曾经说:人是万物的尺度,是存在的事物存在的尺度,也是不存在的事物不存在的尺度。对这个有很多批判,有各个角度,比如柏拉图的《泰阿泰德》。柏拉图自己也给出过“人”这个概念的一个定义。柏拉图认为:人是没有羽毛的两脚直立的动物。他的学生亚里士多德在听课的第二天,提着一只拔光了毛的鸡,对他的老师说,这就是人啊!所以这个定义只存活了一天,成为一个流传至今的段子。中国古代,对于如何定义人也有说法。《春秋谷梁传》中说:“人之所以为人者,言也”。而法国思想家拉梅特里说《人是机器》,这个我并不赞成。法国思想家帕斯卡说:“人是一根会思想的芦苇”,尼采说:“人是一条不洁的河”,这些更多是文学上的比喻,不是定义。马克思说:“人是一切社会关系的总和”。很多人认为马克思这个定义好,但这好像也不是人的严格定义,因为怎么定义社会关系呢?要定义社会关系,又要用人来定义,这是循环定义。循环定义,不为定义。卡西尔也是一位大哲学家,研究了一辈子如何来定义人,他说我们应当把人定义为符号的动物,这个也没有得到大家完全的认可。到现在为止,找不到人的统一定义,“人”这个概念没有经典定义。这导致图灵测试中的人没有了统一的标准或者一致的判据。因此,图灵测试不具有可重复性。 

严格意义上,图灵测试有三个特点,第一,问题不限定。不限定任何的问题,任何问题都可以问,模仿内容或者任务是开放的,没有不可问的问题。第二,被模拟的人不限定。没有说模拟什么样的人,如果说模拟一个具体的人容易一些,而只说模拟一个抽象的人就比较麻烦,模拟具体的某某都代表不了人,只是人的一个样本。第三,语言不限定。在这里面没有说一定要是英语,如果你问一个泰国人,他是说泰语的,我用汉语来问,你说这个测试有意义吗?所以图灵测试是开放测试,工程上要实现,一定要封闭实现,必须要有限制才能实现,图灵测试只是思想实验,不能工程实现。实际上,设计一个好的思想试验也是有非常大的贡献,在此并不是要否定图灵的天才贡献。 

一些人认为这是可操作实验,也有很多人认为这就是个科学小说。我们认为图灵测试就是一个思想实验,属于思想实验的范畴。 

三、图灵测试的后果

图灵测试不是简单的概念,它的优点非常明显,避免了智能的内涵式定义和判定难题,将研究智能的重点放在智能的外在功能性表现,使得智能从工程上看似乎是可实现和判断。原始的图灵测试我们称为开式图灵测试,或者简称图灵测试。封闭条件下实现的图灵测试,我们称之为闭式图灵测试。模拟某个人,比如模拟奥巴马可以通过,但它带来的问题是模拟某个人是否合法、是否合乎伦理,人一旦定了以后语言也定了,任务也定了,像我懂得的东西实在太少,我也只会说汉语,英语说的磕磕巴巴,模拟我这个人即使通过了测试,也不是原始的图灵测试,而是闭式图灵测试。通过闭式图灵测试也是一项了不起的成就。 

到目前为止,对于很多具体的任务来说,闭式图灵测试已经成功。闭式图灵测试的成功,已经给人们生活带来很多的便利。但是,通过闭式图灵测试,是否也会有重大的危害呢? 

在现在生活中,闭式图灵测试比如机器写作、图像合成、视频合成、语音合成技术已经面向大众,鉴定数据真假已经成为目前亟待解决的问题。据说,目前全球互联网上只有不到60%的流量,是由真实的人类产生的。网上的很多内容也是假的。曾经的虚构文章《一个出身寒门的状元之死》,曾经的Bosstown dynamics的假机器人视频都曾经在微信上刷屏。日常生活中我们有美图秀秀,引起严重后果的有通俄门。这些事情已经引起了巨大的反响。现在Facebook发起Deepfake检测挑战赛,悬赏1000万美金,以AI技术打假AI。 

说清楚了什么是图灵测试,图灵测试的预设和后果以后, 就可以理清人工智能的一些问题。比如强人工智能,人类级人工智能,通用人工智能,超级人工智能这些现在很火的概念是否成立。虽然这些概念都是人工智能的先驱提出的,但是实际上,并没有实现的可能。原因也很简单,所有的上述人工智能至少要求通过原始的图灵测试,甚至要通过3T。比如超级人工智能,必须通过3T。现在2T都不可能实现,更别说3T。因此,强人工智能,人类级人工智能,通用人工智能,超级人工智能在工程意义下没有实现的可能。  虽然只能实现即使闭式图灵测试,其造成的后果也不见得不严重。 

最后小结一下,图灵测试是思想实验,不是工程实验。没有强弱人工智能,只有人工智能。因为强人工智能、人类级人工智能、通用人工智能、超级人工智能都没有工程实现的可能。以上是本人的粗浅观点,欢迎批评指正。我的报告到此结束,谢谢大家听我的报告!

(本报告根据速记整理)

CAAI原创 丨 作者于剑教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会