中国人工智能学会

Chinese Association for Artificial Intelligence

CIIS 2018 演讲实录丨吴及:知识与智能——从医考引擎走向智慧医疗

发布时间:2018-12-11

由中国人工智能学会主办,广州易间网络科技有限公司承办的2018第八届中国智能产业高峰论坛11 月17-18日在成都完美收官,论坛在两天的会议里带来了多场精彩报告。

此次小编为大家整理的是来自清华大学电子工程系副主任吴及主题为《知识与智能——从医考引擎走向智慧医疗》的精彩演讲。 

13-1.jpg

吴及

清华大学电子工程系副主任 

以下是吴及教授的演讲实录: 

本次论坛覆盖到了人工智能+的几个方面,包括智慧医疗、智慧金融、智慧司法和商业智能。我的题目《知识与智能》是借了论坛的名字,很高兴有机会介绍一些我们的工作和思考。 

人工智能第三次浪潮大家很熟悉,有一个标志性的事件就是AlphaGO,通过一系列的人机对决,人们终于认识到在围棋这个领域,人已经不是机器的对手。不管以前大家怎么样去看待个围棋,计算机的获胜最终证明围棋就是一个计算问题。AlphaGO采用的主要策略包括蒙特卡洛搜索树、策略网络、价值网络,采用强化学习进行训练。Deepmind在强化学习上下了很多功夫,在很大程度上推进这方面的研究。 

人工智能不仅能下围棋,还能玩游戏。这是一个弹球游戏,看机器达到了什么样的水平?如果挡板能挡住小球,反弹起来就可以继续得分,次数越多,得到的分数就越高。迭代次数越多表现越好,挡板的移动速度越来越快,预测越来越准确。而到600轮迭代后,就从量变产生了质变。人工智能系统找到一个有效的策略,把球弹到上面,在上面不断的得分,只要不掉下来,下面的板根本不用动。每次小球从上面掉下来时,它就试图把这个球反弹到上面去,经过600轮迭代优化实现了这个能力,这是典型的强化学习。在这样的学习过程中,其唯一需要就是游戏规则,规则决定只要不把这个球漏掉,只要不断反弹就可以不断得分,于是它就学习到了这个策略。在这个游戏中,人工智能系统进行600次迭代用不很长时间,然后就可以把游戏玩得这么好;而人类,无论哪个游戏高手想在短时间内练到这个水平,都是很困难的。 

Deepmind写了篇论文,发表在Nature上,题目就是《机器掌握下围棋的游戏不需要人类知识》。实际上他们确实做到,不需要任何知识,只是通过机器的自我学习,机器在围棋上已经超过所有下围棋的人类高手。我举这个例子,实际上是提出了一个问题,就是从实现人工智能的角度,知识有没有用,有多大用?这在学术上其实有不同的观点,并不是很一致。有人认为有数据就够了,也有人认为有数据加一小部分知识就够了,也有可能像我们今天这个论坛,在座的大部分人可能都认为知识很重要。 

举一个例子。假设有两个人在聊天,第一个人和第二个人说我想上厕所,第二个人说街角有个肯德基。大家都不难明白他想表达的是什么意思。但是如果我们不具备生活常识,假设从宋代抓一个人来,他肯定理解不了。理解不仅依靠这句话本身,还需要有世界知识。想实现自然语言理解,很多时候只依靠自然语言的句子本身是做不到的,必须要有足够的背景知识。 

现在很流行穿越小说,但这真的只能当小说读。我们如果把一个人扔到古代去,他可能连一天活不了,所以知识是非常重要的。人工智能本质上就是一门关于知识的学科,涉及到怎样表述知识、获得知识和使用知识。我们这里讨论知识与智能,相信在绝大多数实际生活的场景下,没有知识就不会有智能。 

自从AlphaGO的成功之后,人工智能有很多进一步研究是关于考试的。日本国立情报学研究所和东京大学等机构想合作研发一个高考机器人,目标是2020年考上东京大学。它在2015、2016年两次参加了日本的高考,分数超过了日本高考学生平均成绩,但是离考上东京大学还有很大差距。经过两年的尝试,他们放弃了后续的尝试。主要原因是,第二次参加考试比第一次只进步了十几分,有一些理解的问题并没有有效的路径去解决,因此放弃了考上东京大学的设想,转而到工业界去寻找可能的应用。 

另一个例子是美国有一个研究所AI2,是由微软的联合创始人保罗·艾伦创办的。他们尝试做的一个工作,就是开发人工智能系统去参加美国中小学的生物考试。美国大学前教育是12年制,这个智能机器的水平,我们了解到的是已经通过了四年级的考试,但还没有通过八年级的考试。我国“863”计划也有个项目是研究高考机器人,希望能在2020年考上清华大学;中国成都的一个公司研发了名为“学霸君”的系统,去年用高考的数学考试进行了测试。 

现在机器玩游戏的水平已经很高,下围棋人类已经不是机器的对手,机器的下一个目标就是在考试上挑战人类。考试是以标准程序和方式考核学生特定范畴知识的方法,以往的考试都是面对人的。在很多应用中,人和机器是相互协作的,我们在淘宝上买东西就是这样,系统希望你有很好的购物体验,你希望能顺利买到满意的商品,所以你们是完全的合作关系,目标一致。但考试不是,考试是有限合作,考试要考出学生之间的差距来,要有区分度;而学生想尽量考出一个好成绩。因此在考试这件事情上,人和AI是部分协作的关系。 

我们前几年开始进入智慧医疗的领域,作为阶段性的研究目标,想研发一个人工智能系统去参加国家执业医师考试。医学考试的知识量非常大,我们当时购买了大量的医学教材。一个医学院的学生在5~8年的学习过程中,有大量的知识需要学习;而且仅有书本知识还不够,任何一个只读过书但没有经历过临床实践锻炼的医生都不实际具备看病的能力。所以要成为合格的医生既需要理论知识,又需要实践经验。国家执业医师考试是一个高利害的考试,在我国要想成为真正的医生,就必须通过这个考试,否则就不具备行医资格。这个考试分两级四大类。考试分为临床、中医、口腔和卫生四类。其中,70%的考生选择临床,临床笔试覆盖面非常宽,考试大纲里公布了2 700多个知识点。 

国家执业医师考试的报考门槛是医学本科毕业加上一年以上的临床实践,或者专科毕业加上两年以上的临床实践,因此这个考试必须是学医的人并且经过实践才可以参加,而且考试总的通过率并不高。当然这里面差异也很大,比如北京协和,北医毕业的学生通过率应该在99%以上,但是从全中国的范围来看,通过这个考试对很多人来说,难度是挺大的。这也反映了中国优质医疗资源的紧缺和分布上的极不平衡。 

国家执业医师考试的形式是两天四场,每场150道题,时间是150分钟。国家医学考试中心这个机构,最重要的任务就是出考题组织各种医学方面的考试。一个上岗的医生是否合格,对社会和老百姓太重要了,如果我们的医学水平不够,那我们实际上都很危险。国家执业医师考试的考题分为两类,一类是知识题,需要理解掌握医学知识;另一类是案例题,题目就是一个实际的案例,一个什么样的病人出现了什么样的症状,问你应该怎么诊断怎么治疗。这类考题的比例,从这几年的趋势来讲是越来越高了,现在临床执业医生考试中案例题已经超过了50%。我们可以把这个考试任务同机器阅读的一个著名任务SQuAD做比较。SQuAD是斯坦福大学发布的一个机器阅读任务,现在有很多研究机构经常刷榜,谁的成绩领先就可以证明自己的机器阅读能力很不错。这个任务和我们中小学做语文,英语的阅读理解题一样。回答这个题目所需要的知识都包含在这个文章里,并不需要额外的知识。只要阅读理解能力够,就可以通过阅读文章来回答这些问题。这个任务就可以衡量机器对语言的理解能力。 

但这个任务和国家执业医师考试是两个完全不同的任务,国家执业医师考试600道题,参加考试的人需要利用过去5年,8年,甚至10年学习到的理论知识和实践经验来做题。因此,如何让机器具备学习掌握并且运用知识来回答考题的能力,是这个任务最大的难点。具体来说就是两个方面,一个是知识的表达;一个是知识的推理。把电子文本存在计算机里,不叫做表达,因为计算机并没有办法直接使用;而让机器来做推理更是非常困难的事情。很多人可能会有个疑问,大家每天都用搜索引擎,它的搜索能力那么强,是不是做一个针对考题的搜索引擎就可以了?其实这是不行的,医考历年的考题都是绝密,即使考试结束也不会有考题流出来。其次国家执业医师考试并不依赖与固定的题库,每年国家医学考试中心都要组织很多专家出题,为了出这600道考题,投入的时间精力都是非常惊人的。 

知识图谱方面已经有很好的研究工作,在很多领域也发挥了很大的作用。但知识图谱也存在一些不足,主要表现在它的描述能力有限,扩展维护也比较困难。所以对医学领域很多复杂知识,仅靠知识图谱难以被有效描述。因为医生看病过程是一个过程性的事情。比如一个人感冒发烧,并不能确定就一定是上呼吸道感染。 

在这个研究中,我们主要做了两方面工作,一个是知识表达;一个是知识运用。知识表达主要有符号表达和向量表达两种形式,符号表达容易人类理解;向量表达更利于机器计算。我们在表达方面做了两个工作,现在流行的词语义潜入(word embedding)是无监督训练得到的,所以实际上有模糊性。我们一方面引入了词的多语义表达,另一方面把无监督训练得到的表示向量作为种子,通过引入一些监督来进一步学习和调整。 

在推理方面我们做了多尺度的推理,主要是三个层次,首先是点对点,比如某些症状是某种疾病的金标准,这样就容易建立起来词和词之间的关系;而在很多时候一两个词不足以得到疾病的诊断,所以就要引入句子和段落层面的证据,这个方法的基础是双向LSTM,然后我们叠加了双路的注意力机制,一路是从证据看考题,一路是从考题看证据,然后再连接池化层和决策层;还有一些医学问题比较复杂,单个证据还没有办法证明什么是正确答案,因此我们把多个证据连接起来,选择合适的部分和特征,去评估答案的正确性。 

2017年8月27号我们研发的人工智能以系统参加了国家执业医师考试临床笔试的测试。我们的人工智能系统跟与所有考生的考试过程完全同步,考生在全国各地的考场参加考试,我们的系统在国家医学考试中心单独设立的考场中参加考试。断开互联网,全程监控录像,两位国家医学中心的监考老师和两名公证人员全程监考,严格按照考试流程做。每一场考试,考生的时间是150分钟,我们的系统都在不到18分钟的时间内完成了答题。去年11月公布成绩,考试总分600分,及格线360分,我们的系统取得了456分的成绩,百分位点是96.3%。不仅大幅超越及格线,而且超过96.3%的人类考生。 

2018年10月,我们关于医考引擎的学术论文发表在《自然.通讯》上,这是对我们学术成果的一个认可。国内外媒体的宣传报道也很多,《麻省理工科技评论》2017年3月介绍了我们的工作,并在其6月主办的创新科技香港峰会上邀请我作了报告。

考试以后,很多人都问我们,取得这么好的成绩,是不是说今后机器人可以给人看病了。我说不能,千万不要以为考试考得好就可以看病了,考试跟真正看病有很大差别,我们只不过是迈出了万里长征第一步。 

Gartner每年都会发布技术成熟度曲线,把技术的发展分为几个阶段,包括技术触发、期望顶峰、幻灭低谷、缓慢复苏、生产力成熟。我们实验室在语音识别方面做了很多年的工作,1998年在国家“863”计划组织的语音识别测试中,我们对标准口音新闻的识别率就达到了94%。但如果把讯飞输入法月活跃用户过亿作为语音识别技术进入老百姓实际生活的标志,这就要到2016年,两者之间是18年。一个技术从开始的性能提升到最后实际应用将是一个漫长的过程,技术的发展和成熟不可能一蹴而就。 

我们最近启动了一个国家研发计划项目——大众医疗健康医学人工智能管理服务模式。智慧医疗不是一个单点技术,而是涉及到整个体系的提升。在这个体系中,人工智能技术可以在各个层面发挥作用,帮助大家做健康管理,帮助大家做全科诊断,帮助大家做专科诊疗。前几年卫计委就提过要开展基层首诊和双向转诊,但在实践中遇到了很大的困难,主要因为基层能力不够,没有高水平的全科大夫做首诊。现在随着人工智能技术的发展,让我们看到这样一种可能性,就是让人工智能系统来帮助提升基层医生的全科诊断能力。 

这是我们做的另一个工作,是和北京大学口腔医院合作的。在我国,中老年人群中缺牙是常见情况,可摘局部义齿是最常用的解决方案。但全国不同医院在可摘局部义齿的方案设计上,水平差别很大。我们这个工作的目标,就是给定患者的口腔情况,我们的系统能够自动设计出可摘局部义齿的方案来,希望起到拉高整体水平的作用。初步验证情况表明,在绝大多数情况下,我们给出的方案是可以直接使用,或者稍加修改就可以使用的;能够帮助基层医生设计出更合理的方案,也能提升高水平医生的工作效率。 

人工智能在医学领域的推进,离不开知识有效表达和应用。在很多领域都可以有大数据,但在医学领域的大多数场景,数据量都是不充分的。只能靠一部分的数据加上专家知识,协同起来推进医学人工智能的水平。医疗是及其复杂的领域,从健康,、亚健康、慢性病,到全科的诊断和专科的治疗,每一种疾病的处理手段都不一样,这方面的研究是一条漫长的道路,需要学者和研究机构一起携手才能往前推进。在人工智能的发展道路上,知识是我们重要的力量源泉!

(本报告根据速记整理)

CAAI原创 丨 作者吴及教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会