中国人工智能学会

Chinese Association for Artificial Intelligence

GAITC 2017 AI变革时代的智能系统测评分论坛实录丨于剑:真假如何确定

发布时间:2017-06-14

微信图片_20210913153624.png

于剑
北京交通大学教授

以下是于剑教授的演讲实录:

我要讲的是这么一个题目:如何判断真假。这个题目看着很学术化,其实一点都不学术化,因为我们日常生活中每天都在判断真假。实际上,生活中类似的问题很多。 比如: 什么是真假?什么是是非?什么是对错?什么是好坏?这些问题,我们每天都在判定。这上面的问题,任何一个犯错了,都会有大大小小的麻烦。我们也知道,无监督学习是深度学习的圣杯问题。最近最火的深度学习无监督学习模型是对抗生成网络。 但是实际上生成对抗神经网络还是按照监督学习的思路来做的,并不是真正的无监督学习模型。无监督学习为什么困难,为什么是深度学习的圣杯问题?其中一个重要的原因是无监督学习没有标定,导致无法判断学习的好坏。

在这种情况下怎么判断呢?由于判断真假是图灵测试的基础,如果真假都判断不了,图灵测试根本没法进行。当然真假判定对了,图灵测试也就过了。人类是如何判定真假的?我们举几个生活中的例子。比如:“我爱也只爱那些不爱自己的人”,“我的缺点就是我没有缺点”,“除了诱惑之外,我可以抵挡任何诱惑”等等,这些句子真可以判定真假吗?类似这种话每天听到无数,随便举一句, “人工智能未来无所不能”。 这种句子太多了,我们人是如何处理的呢?如果真交给机器来算的话,机器肯定死机。

当然要研究这个真假问题,就会发现实际上以前有很多理论。比如说真理的符合论,从亚里士多德就开始了。在亚里士多德的《形而上学》里对于真假给出了一个定义:说是者为是,说非者为非,为真;说是者为非,或说非者为是,为假。这个定义具有模糊性。什么叫是?以什么为是?什么是非?以什么为非?标准不一。但这个定义的要义是与现实符合。有非常多的天才人物,像罗素、维特根斯坦、奥斯汀等都坚持真理的符合论。符合论碰到的最大难题就是何为原子事实?在现实生活中,每个事实都不简单,没有原子事实。你说一句话这么一个事实,也可以有很多描述,所以什么是原子事实碰到了非常大的难题。而且这个真假定义要求事实的绝对客观性。 但是,我们日常生活当中有些不是客观的,比如个人的主观感受。前两天很多人看过一部印度电影《摔跤吧,爸爸》。那里面有一句歌词,只有痛苦从不说谎。显然,某人是否痛苦只依赖于其主观感受。

因此,有些人人坚持真假的其它定义。 比如在所谓的融贯论里,什么是真假?就看能不能自相一致,如果是一致就说是真的。也有很多人持这一观点,著名者有布莱尼兹、斯宾若莎、笛卡尔、黑格尔等人。在融贯论里,命题的真不依赖于它与事实、实在的符合或对应,只在于其在其自身的命题系统中是否融贯。除此之外,真假的其它定义还有上个世纪20年代由拉姆塞提出的冗余论。 在冗余论里,P是真的,仅仅等同于P。P是真的,只不过是意指P。P是假的,只不过是意指非P。如果P说是假的,就等于非P。冗余论也称紧缩论、消失论、无真理论。

需要指出的是,上述理论有一个共同的假设,根据句子判断真假。前面提到的三个真理理论最后都出了问题。为什么会出问题呢?追踪到最后,发现问题都跟词的表示有关。如果词没有定义好,定义句子就很难。因此,需要首先定义好词。前面提到的三种真假理论里,都使用词的经典表示。下面我们看看什么是词的经典表示?

为此,先回忆一下词的定义:词是最小的能够独立运用的语言单位。这这儿,需要指出,词具有很多别名,比如概念、集合、模式、类、术语等。本次报告里,如果不特别指出,只用词这个名字。在这个词定义里,最小实际上是没有意义的,因为除了词之外还有词素,词素显然比词小。因此,能独立运用是词最重要的特征。 词为什么能独立运用呢?显然是因为其具有语义。那什么是语义?语义当然有很多种。在座的如果学过的话就会知道,有太多的语义定义。比如计算机科学中最常用的是逻辑语义,依赖于命题。实际生活中我们很少用逻辑语义,日常生活中常用的语义定义有三种:外延语义、主观语义和符号语义。外延语义是指认知对象在客观世界的真实对应,一般用集合表示。比如说我的名字叫于剑,我这个人是对应于于剑这个名字的外延语义。主观语义是指认知对象在主观世界的对应表示,传统上用命题表示。主观语义怎么定义?在座的很多朋友认识我,比如说陈老师。我跟陈老师已经有小半年没见面了,但是他依然认识我,为什么?他心里有我的一个表示,一看我变化不多,跟他心里的于剑表示很像,他就辨认是我了,他心里对我的这个表示就是主观表示。符号语义,是认知对象在认知世界的对应表示,用词表示,在认知世界里, 于剑这两个字就是我的一个符号表示。

有了这三个表示之后,真假如何判断?要想解决这件问题,就需要知道这三个表示如何使用?下面我们将讨论这个事情。 要想使用这三个表示,就需要将词与现实中的各种对象联系起来,换句话说如何将对象指称成思维中的词语。当您接触世界时,各种对象将自动呈现为心智中的各种词语,这就是词的指心功能。如何将对象归为概念,用词来表示?我们先回顾一下词的经典表示。 在经典理论里,词的指心功能是用词的内涵表示来实现的。 所谓词的内涵表示,即命题表示,对应词的心智表示。 举一个例子。 比如,什么是素数?众所周知,素数的内涵定义是一个命题:只能被一和其自身整除的自然数。但词的心智表示,有时可以外显。比如命题可以外显,但不是都可以外显的。词的外延表示是所谓的集合表示,对应词的指物部分。说明词在现实中到底是什么东西。词的符号表示就是词名,即指名的部分。应该说,词的经典表示要求很高。在现实生活中的词虽然很少满足词的经典表示,但做科学研究的一定要尽力用词的经典表示,一般情况下,总是假设词的表示是经典表示。可惜的是,词的经典表示有很多缺点,下面我们简单分析一下。

词的经典表示的第一个缺点:词用概念名表示时,但是很多东西的概念名我们并不知道,到野外看到很多东西可能并不知其名。而且更重要的是它的内外名不一定一致。有一个非常有名的社会学研究,其表明日常生活中成人日均说谎一次。 什么叫说谎,就是外部叫的跟心里想的不一样。词的经典表示并不区分词的内名和外名。

词的经典表示的第二个缺点:词的外延表示是经典集合论,像罗素等很多数理逻辑学家都用的是经典集合。但是,日常生活中,用的很多词其边界是不明晰的,比如好坏等,不能用经典集合表示。另外如果用经典集合,如果不选取合适的特征,就很难区分集合中的元素与集合外的元素。什么是美丑?比如给你一个巩俐,一个汤加族的美人,我们会认为巩俐美,但是汤加族的人会认为她不美。 这时候您就需要弄清楚美的分类特征。 如果没有选取合适的这个特征,就很难搞清楚这中间的区别。

词的经典表示的第三个缺点:其假设词的内涵表示可以外显的用命题表示。可是,对日常生活中使用的词来说,外显的命题表示不一定存在。 维特根斯坦已经论证了同一个概念中的对象不一定具有共同性质,日常生活中的概念大多不能用命题来表示。我们可以举一个简单的例子,到现在为止,我们研究了这么多年人,人的命题定义可以给出吗?实际上,到现在为止,人的命题定义并没有给出。

词的经典表示的第四个缺点: 我们原来认为每个词都是有唯一表示的。即,每个人用同一个词时,这个词应该都是一样的,可是实际上并不一样。现代认知科学研究表明,词的表示依赖于每个人的自身感知条件,不可能与他人一致。如果一致的话,就不会发生理解上的问题。对于每个词,我跟你都一样,我能理解错你吗?如果这样,不可能理解错误。 现实中显然不是这样。

词的经典表示的第五个缺点:概念经典表示要求内涵表示与其外延表示指称等价。但是,众所周知,知人知面不知心,人心难侧。因此,在现实生活中,词的内涵表示和外延表示常常指称不等价。

综上所述,可以知道为什么词的经典理论会出问题,是因为词的经典表示,跟日常生活中差很远。所以,要想与现实一致,词的表示一定要改。

如何改呢?我们引用一个著名的故事,高山流水遇知音。 如果能将这个故事听明白,就可以将词的新表示想清楚。高山流水遇知音讲的是什么故事呢?其实讲的很简单,就词的表示来说,伯牙想表示一个概念,心里想高山就用琴声表示出来,子期知道是高山。子期用语言表示出来。假设子期说英语,那谁理他?子期用的语言肯定是伯牙可以理解的。这个故事告诉我们很多信息,因为伯牙并没有把内部表示告诉子期:“我弹的是高山”,只是用琴声的方式告诉子期。伯牙每次都这么干,他心里想什么都不说,就是弹琴。结果钟子期不管伯牙弹什么,总是说得对,总是能把伯牙心里想的说出来。这个故事给了很多启示。

要表示一个概念的话,首先要进行约定,即讨论什么,讨论哪些对象,讨论那些特征,以及对象与概念之间的隶属函数,即所谓的外名、特征映射和隶属函数。概念总有一个外名。在高山流水遇知音中,钟子期说出的是外名,告诉伯牙他想的是高山,外名一般用一个词语表示。当然高山,我们知道它要指称现实中的东西,真的得有高山在那儿。当概念指称一个对象,要将对象表示出来,每个高山都有一个所谓的自己的特征。对于概念来说,有特定的特征表示。 当表示肥胖这个概念时,有身高、体重、年龄、性别这些特征。比如说体重20斤胖不胖?十岁的小孩显然太瘦,如果是刚出生的小孩那就属于胖死了的那类了。

有了概念特征之后,对象属于不属于这个概念?就需要一个隶属度函数,来判断每个对象属于概念的可能性。应该说,外名、概念特征、概念隶属度都是外部的,是外部可见的。

概念还有内部不可见的部分,同样有三部分。概念在心里也有一个名字,我们一般假设内名跟外名一致,但是实际上在现实中不成立,前面已经说了,外国人曾经做过试验,成人日均说谎一次,因此不可能内名与外名总一致。所以内名跟外名不一定一致。当然关于概念的认知表示的研究这儿就不做详细论述,只略作简述。最早所谓的经典理论,用命题表示概念的认知表示。我们知道这经常不成立,当然后来提出了非常多的理论,比如 1978年提出的原型理论和样例理论,等等。2016年4月份,《Nature》有一篇封面文章,该文再次表明人的概念在大脑里面都会存在的,就是所谓的大脑语义地图。但是表示什么样子,我们不知道,我们现在也假设不知道,但是假设它总是存在的。有了这个表示就可以使用。不管你怎么表示,来了新对象之后,就可以看这个对象是不是与我心里的表示相似,如果跟我心里的挺像,就判断属于这个概念。举个例子,实际上我也好多天不见刘挺老师了,为什么现在还认识他?显然是因为刘挺老师跟我心里想的挺像的,还是这么英俊潇洒。但是有没有比刘挺老师更加英俊潇洒的?因此,有一个概念相似度函数。这样,概念的内部表示也有三部分,内名,概念的认知表示和概念相似度函数。

综上所述,我们新提出了词的新表示,分为两部分, 外部表示和内部表示。词的外部表示有三部分组成,外名、概念特征和概念隶属度。词的内部表示有三部分组成,内名、概念的认知表示和概念相似度。对于词的新表示来说,也可以分为三部分,外名,外集,内部表示。我们通常用外名表示这个词,外集表示对象物理外显的部分。词的内部表示不一定外显,有的时候会外显,但是正常情况下很难外显。 这样就克服了词的经典表示的缺憾,内外名可以不一样。外延表示跟内部表示不一定相同,差别很大。 如果更深入的说明一下,词的外名是认知世界的一部分,即语言的部分,就是所谓指名的部分。词的外集表示客观世界的部分,就是所谓指物的部分。 词的内部表示代表心理世界对于对象的表示,就是所谓指心的部分。在词的经典表示里, 词的指名、指物和指心这三个功能在对物指称上是等价的。 但是,显然这在实际中不成立。 这点在词的新表示里可以清楚显示词的指名、指物和指心功能不等价。有什么不同呢?我们也举几个例子。

名指的例子。 比如在马三立的著名相声段子:“母亲:谁啊?宝宝:逗你玩”。实际上,这儿的逗你玩是一个人的名字。还有“鸳鸯两字怎生书?”说的就是鸳鸯这两个字,不是指的真的鸳鸯。 

物指的例子。“赵家的狗,何以看我两眼呢?” 显然,这儿的赵家的狗是指的现实世界中那只真的赵家的狗。

心指的例子。“丧家的资本家的乏走狗”指的是梁实秋。 显然,梁实秋只能在作者心里像狗,梁实秋在现实世界中无论如何不是狗。另外一个著名的例子来自于电影《大话西游》,“你看那个人,好奇怪哟,像一条狗”。 显然,电影中的孙悟空无论如何不是一条狗。

有时,名指、物指、心指三指合而为一。也举一个例子:“何处合成愁?离人心上秋”。离人心上秋既是名指的回答,物指的回答,也是心指的回答。当然有时候名指同,物指可以不同。如“粉身碎骨浑不怕,要留清白在人间”既指石灰又指于谦。

由此可见,词的新表示比经典表示复杂多了,如何使用呢?显然其外部表示和内部表示的使用方式不一样。在内部表示里,人们根据对象对于不同概念的相似度选择一个最合适的内名来表示对象,更简单的说法是,人们在内部字典里找出对象最合适的内名, 这称为内部指称。 在外部表示里,人们根据对象对于不同概念的隶属度选择一个最合适的外名来表示对象,更简单的说法是,人们在外部字典里找出对象最合适的外名,这称为外部指称。显然,无论查找外名、内名,这都是一个最优化的过程。显然,这并不容易。 实际上,如果您写过诗词,就知道要找到一个合适的字写入诗句中,非常不容易。

词的新表示比词的经典表示复杂很多,如何简化?很简单,既要求词的新表示满足经典表示的假设,具体说来,就要是内名与外名相同,内部指称与外部指称相同, 如果满足以上条件,该词的表示满足自一致条件。一个词满足自一致条件,即要自真。 简单地说,词的使用者自己要认为词是自一致的,即是自真的。当然这个自真,并不保证正确。我们举一个例子。2016年,有一个报道,一个小伙做梦吃猪蹄,最后把自己手啃得鲜血淋漓。他是心里想着吃猪蹄,在现实中也在吃猪蹄,甚至吃出了猪蹄的味道,但是那真是猪蹄吗? 

要是连自真不满足,就是自假了。最著名的例子就是皇帝的新衣,他知道自己没穿衣服,但是还是要表现出自己穿衣服的样子。还有《大话西游》著名的桥段:爱你一万年。至尊宝骗人的时候心里想,我平生说谎无数,这个我认为是最完美的。显然,是自假。还有萧何自污,指鹿为马的故事。当然国外也有类似的故事。比如有人把莎士比亚的诗翻译如下:“子言慕雨,启伞避之。子言好阳,寻荫避之。子言喜风,阖户离之。子言偕老,吾所畏之”。我们知道这都是自假。

对于人们来说,通过教育可以使概念的外部表示尽量相同,如果概念的内部表示可以由命题来表示,概念的内部表示也可以相同。这是人们为什么追求概念的内部表示用内部表示的深层原因。

现在说了这么多,到底怎么判断真假? 判断真假的基本假设,是由于存在对标方。 词的新表示由于涉及概念的心智表示,一般每个人都不同。 因此,如何确定对标方就成了关键。对于同一个概念,如果对话双方的心智表示,内蕴指称、外部指称,如果都相同,对于这个概念, 对话双方同真。显然这个条件过于复杂。怎么简化?如果每个人的词表示都满足自一致性,就会将同真条件进行简化。这种情况下, 何时需要判断真假,如何判断真假?对于同一个概念,如果对话双方都是自认为清楚,这时就有真假问题。 如果不自一致, 假。 如果自一致满足,与对标方不一致,假。 如果自一致,且与对标方一致,真。那什么叫对标方?作为真假的参照方即为对标方。对标方可以是言者,比如说言者自身的感受时;可以是听者,比如听者自身的感受时;也可以是第三方,这个第三方,可以是已知第三方,也可以是未知第三方。下面举几个例子。

1)言者是对标方:我达达的马蹄是一个美丽的错误,我不是贵人,是个过客。作者自己知道自己是对标方。

2)未知对标方:博士眼里的自己与别人眼里的博士显然不同,到底谁是正确的?在这种情况下,会发现对标方是谁很难确定。

3)有时候言者以自己为对标方,听者也以自己为对标方。比如以下这个故事:他对她说天暖了,就一起旅行。她说好,他又说,那天我女朋友夜来。她觉得心有点隐隐作痛,但还是强笑着说好,那我也带我男朋友来。碰头的那天,还是只有他们两个,她见到他孤身一人,便问,你女朋友吗?你男朋友吗?他在那边停车呢。

我们开研讨会的目的是什么?因为人工智能。大家研究了这么多人工智能,到底是不是具有智能,对标在哪里?我们就希望通过这次论坛,成立一个组织,给出一个对标的标准。简单地说,既是建立一个对标方。

本次报告就这么多,谢谢大家来听我的演讲。

报告的部分参考文献:
1)Yu Jian. Communication:words and conceptual systems, arXiv preprint arXiv:1507.08073, 2015
2)《公孙龙子》
3)英 罗素, 《心的分析》
4)维特根斯坦, 《哲学研究》
5)Grice,H.P. (1975) Logic and Conversation, In P.Cole. & J. Morgan (eds.) Syntax and Semantics, Vol.3: Speech Acts. New York: Academic Press
6)Murphy, G. L. (2004). The big book of concepts. MIT press.
7)恩斯特.卡西尔,《人论》,上海译文出版社,
8)DePaulo,B.M., Kashy, D.A. etc(1996). Lying in everyday life, Journal of Personality and Social Psychology,70(5):979-995

(本报告根据速记整理)

CAAI原创 丨 作者于剑教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会