中国人工智能学会

Chinese Association for Artificial Intelligence

CIIS 2019 演讲实录丨陶焜:医疗场景中的智能交互与辅助决策

发布时间:2019-11-14

10月26日-27日,由陕西省委网信办、陕西省工业和信息化厅、陕西省科学技术厅指导,中国人工智能学会主办,西安市委网信办、西安市科学技术局、西安国家民用航天产业基地管理委员会、京东云共同承办的2019第九届中国智能产业高峰论坛在“硬科技之都”——西安举办。在27日举办的生物信息与智慧健康专题论坛上,北京爱医声科技有限公司CTO 联合创始人陶焜为我们带来了题为“医疗场景中的智能交互与辅助决策”的精彩演讲。

21-1.jpg

陶焜

北京爱医声科技有限公司CTO 联合创始人

以下是陶焜的演讲实录:    

中国医疗的现状,医疗资源的分配非常不均匀。我们知道,好的医生、好的设备全都集中在大城市大医院,大量的中国的基层或者3、4、5线城市的民众,他们有大量的医疗需求,但是没有足够好的医生或者足够好的设备去给他们看病。从4、5线城市来到北京、西安这样的大城市看病,对他们来说成本是非常高的。怎么解决这个问题呢?国家现在尽量用分级诊疗方式、互联网医疗这样一些手段去解决,但是只能起到资源优化的作用,并不能让这个资源变得更多。所以我们现在要从根本上去解决这个问题,除了我们加快医生的培养(当然这个周期是很慢的),还有两个路径:一个路径我们把AI能力落到基层,去用AI辅助基层医生,帮他们做问诊的辅助诊断,给他们提供影像学的诊断能力,去提高基层医生的诊疗服务质量。另一个路径就是我们可以利用AI去参与这些大医院的医疗服务过程,增加医疗的诊断效率,比如说门诊的效率能不能提的更高、减少误诊率,提高手术的成功率、让病床的流转速度加快等等,从这个角度去解决医疗资源不足的问题。 

智能交互在医疗场景上的应用有很多的形态。门诊上面,我们可以给医生提供辅助性支持,提高他的工作效率,包括给基层医生诊断的建议。我们在手术中可以提高医生手术的便捷程度。包括日常的医院住院患者的护理、家庭诊疗、包括医养结合等等,这都是我们可以去想象的一些场景。在门诊场景,大医院的大专家他们是非常忙的,一早上要看几十个号,可能具体到每个人只有5分钟的时间,但是5分钟的时间你稍微寒喧两句,问一些最基本的问题可能就结束了,医生很难在有限的时间内收集到足够多的信息去辅助他的诊断。而且医生和你对话的时候一边问你的情况,另外脑子里还在不停推理你大概是什么病,接下来该问什么问题才能确认自己的判断。在推理的同时还要思考怎么写病历,有些老专家输入法不熟练,还要想这个地方怎么敲,这样效率是非常低的。如果我们用语音识别帮助他写病历,就可以极大提高他的效率。手术室场景里,复杂的手术我们要在术中看片子,以前都是把打印的胶片插在灯箱上,图是很小很不清晰的,也用不了三维重建。现在我们把屏幕搬到了手术室,让医生可以更好的阅片。但是有一个问题,医生消完毒之后不能随便摸键盘鼠标,往往让护士帮他操作,这样很不直接,很不方便,信息获取非常困难。而且现在手术机器人技术也在不断发展,我们对机器人的操作也是一种人机交互技术。请看这幅图,这个是著名的达芬奇手术机器人;还有这幅图,展现的未来胶囊机器人的运用,这些场景下用人机交互辅助手术的进行会变得越来越重要。再比如医养场景,我们平时想到的正常老人的照顾可能就是你请个钟点工帮他买买菜,做饭、打扫卫生等等。但是还有很多老人,他的健康需要每天进行监护,除了定期去社区检查,我们还需要对一些指标(比如血压),能每天给他很方便的进行监护。还有老人跌倒的问题,如果家里没有全职保姆在家,独居老人跌倒怎么办,能不能靠AI设备去帮助检测这些意外并做出智能报警?对于半失能的老人,能不能用机器人解决一部分护工的工作量?这些照顾上的需求,甚至包括用聊天机器人解决老人的孤独陪伴,都是AI可以想办法起到一定帮助作用的。 

上面介绍了医疗里面的一些对AI有需求的场景,那我们看看具体的技术方面。我们用AI技术辅助医疗,AI交互包括不同的模式,包括视觉交互、身体整体体态的交互、手势的交互,还有眼动交互等等。我看见外面走廊上有一个展示,是用眼动控制小轮椅去走的,这是一个很好应用。还有一个场景,有很多ICU病人喉咙插着管子,身体不能动、不能说话,但是脑子很清醒,那他想上上网、敲个字跟护士家人进行交流怎么办?我能不能用眼动做一个界面,帮助ICU的病人解决这个问题?还有声学交互,声学就是语音识别,这个大家都很好理解,现在的应用也比较广泛,不用展开解释了。其他交互模式还包括脑机接口,有很多实验室做着相关的工作,在脑袋上戴一个头盔感知脑部信号,进行各类监护和交互,这一块是未来的趋势。交互还包括基于雷达的非可见光的交互、触摸感知等等,都可以归纳到大的人机交互的概念里。这些不同模态的交互,其实需要很多很多技术的支撑,包括前端各种硬件设备的研制;包括中间层次,比如说语音识别或者图像识别的技术支撑。还有深层AI的理解和推理,我们需要做知识图谱,如果做医学的话还需要医学知识库、人工情感。有这一系列技术的支撑我们才能做到真正好用的,真正能接近自然体验的AI的交互。其实在任何一个场景交互的模态是非常多样性的,比如以手术室来看,我们当时调研的有50多篇论文,介绍了各种应用形态。有的是用语音辅助影像的交互,有的是用传感器做机器人的遥控,也有做眼动的,也有视觉的,模态是不拘泥的。但是在各个模态上都有很多现实的问题,比如语音识别,我们在医院的嘈杂环境下如何解决声学信号降噪的问题,还有特别让人头痛的方言、口音的问题。大家知道NLP是很难的,我们面对的患者也是这样的,他们口语表达的多样性、在多轮对话里主题的跳跃性都是非常难处理的,还有医学文本的规范性的问题等等。这些问题在我们做技术落地的时候都需要去面对。 

刚才讲了整体发展的背景,下面我讲一些具体的案例,就是不同技术应用的场景。比如说语音,语音最基础的应用一个是语音输入法、一个是语音指令控制,难点主要在降噪和方言口音。解决了这两点之后,也就是我们知道人说的是什么的字之后,后面还有一个很大的应用,就是利用智能人机对话技术去理解人说的内容,并和人进行交互。智能人机对话技术在医疗里的应用要分为三大类型,第一种是给患者提供信息,患者要咨询一些问题,或者患者不知道该挂什么科,可以由机器人来做出回答;还有一类向患者提出问题并进行信息收集,这些是由任务模板驱动的,比如说病史采集、随访之类的;还有一类对话应用就是陪伴聊天机器人,做自由对话,进行精神陪伴。我们看一下AI导诊,现在很多地方的挂号平台都在推出一种智能导诊的应用,导诊场景我不需要很精准很专业的细分病种,我只要问3、5个问题,我大概能判断出你属于哪个系统,是呼吸系统还是消化系统的疾病,我推荐你挂的科推荐对了就可以,所以它这个比较好落地。我们现在做的场景是在北京西城区的公共卫生平台上去实施,这样的系统跟区域的预约挂号系统去对接就很方便。还有就是病史采集,因为医生门诊时会见你的时间很短,但我们在候诊的时候会等很久,在这一段时间内我们可以做病史采集。医生设定一些他想要问一些问题的模板,当患者在等候的时候根据这些模板进行人机对话,对话完成之后,我立即可以生成相对结构化的病情报表,也可以生成类似医生写病历那种可读性强的文字报告推送给医生。医生见到患者的时候,只要先扫一眼报告,然后补充性的有针对性的去再问一些问题就可以做出比较准确的判断了,这样可以加快他诊疗的速度。再比如智能随访,因为现在国家的政策要求,各个医院要上随访系统。但是随访里面很多的问题是很简单重复性的,完全可以用AI对话替代人工拨打电话去完成,所以现在随访也是我们目前做的重点方向。 

还有一种工具是医生梦寐以求的,就是医生跟患者聊病情的时候,就有一台机器人自动把两个人说的话全部记录下来,而且能理解我的意思并自动生成报告。这个事情在九十年代的时候,美国人是怎么干的呢?美国医生把这个活包给当时最大的语音识别厂商Nuance,白天医生跟患者聊,那边录音录着,晚上医生下班了,把录音的结果打包发给印度的外包。印度那边正好这时候白天上班了,外包的人也是学医出身的,他把这个东西听一遍,扫一眼语音识别的结果(当时的识别结果也没现在这么好,仅供参考),然后把诊疗记录写成一个报告发回去。第二天美国医生上班时看一下这个报告写得怎么样,修订一下,就可以提交存档了。当时这个服务基本属于有多少人工就有多少智能的水平。 

现在我们的目标就是想要把这个事情继续往前推进,这个是应用产品示例:智能电子病历原型(播放视频)。这个系统我们在比较好的环境下规规矩矩的一问一答这么说,可以得到很好的效果。但是在医院里实际落地还有差距,第一因为复杂的环境会造成识别不准,其次如果这个患者的表达太具有跳跃性了,那么最后结构化的结果就会出错,比如一些关键词所依存的主语放错位置,那生成的病历报告效果就不会很好,需要医生再去手动修改的地方就会比较多。我们现在的思路要把知识图谱等外来的知识引入NLP的模型里面,帮助算法更好的理解具有跳跃性的表达,包括一些常见用语错误的纠错,这是我们努力去做的一个方向。 

AI手术场景,我们做了一个原型系统,基于3D手势识别和语音识别。手挥一挥,就可以以类似虚空触摸的手势操作影像;念一句命令,就可以让画面进行旋转。交互的问题解决以后,未来会有更多应用的可能。现在比较热门的是VR和MR,左边图上的VR虚拟现实可以用来做手术的模拟、手术的教学。右边是MR,MR就是混合现实,微软现在重点打造他的HoloLensMR头盔,可以给医生提供信息非常丰富的手术导航。虽然成本还比较高,但这是未来的趋势。我们在移动护理上也有一些应用。有时候在医院里,烧伤皮肤的移植之类的护理,医护人员每天需要定时观察他们的皮肤颜色是不是有变化,移植是否接活了,有没有发生血管梗阻坏死,这样的工作对他们来说很繁重,我们可以用图像识别做一个自动的比对,做快速的提醒,这样可以很大提高他们的工作效率。包括身上有创口比如褥疮,过去医生拿一个小尺子量伤口的大小深度,但是这样就很不方便,而且很容易触碰到伤口。现在拿一个3D摄像头一拍,整个模型就出来了,尺寸深度都有了,这样给医护人员会提供很大帮助。回到养老,过去有很多可穿戴设备监护老人的情况,但是老人不爱带,嫌不方便或者容易忘记。我们现在往智能家居的路径上走,在公共的场景我们可以用视觉监控,其他场景可以用音频监控、用毫米波雷达进行监测。毫米波雷达是最近几年非常新兴的方向,它可以探测非常微小的物体移动。当人体静止的时候,他甚至可以通过分析胸口的轻微起伏信号来监测人的呼吸和心律。相对于传统的图像检测,他得到的是一堆波形信号,不会涉及到太多的隐私,所以这个非常利于老人心理上接受。我们现在也在跟一些科研院所一起探索,推动这款产品的成熟落地。 

我报告第三部分的展望是将如何把AI交互从从工具发展为助手。好比医生做手术,我不仅需要递钳子擦汗的护士,我还希望得到很靠谱的一助二助,可以把简单的缝合任务交给他,包括去提醒我的一些缺漏,所以我们进一步的目标其实要把AI的辅助诊断、辅助决策的能力跟交互结合起来。现在的辅助诊断,过去我们使用专家系统会比较多,现在越来越多研究者都是基于知识图谱去构建这些AI决策的平台,这是一个趋势。但是在做这个的过程中我们会面临很多问题,一个是术语的规范性问题。随着医学的发展,很多医学用语都在变迁,比如以前叫中风,现在叫脑卒中;以前叫肺气肿,现在叫慢性阻塞型肺炎。还有一个问题是现在国家也非常重视医疗信息的隐私问题,我们一般拿不到足够多的数据支撑我们的研究,所以这一块是比较头疼的问题。但是一旦这些工作有一个初步的结果,我们希望更好地整合到现在的交互系统上。如果我们将来做得更成熟了,我们将辅助诊断和刚才展示的门诊双人对话识别系统可以整合起来。这样在不影响医生跟患者交流的情况下,一遍做记录,一遍还可以实时弹窗提醒医生属于哪些病的概率较大、以及下面该问哪些问题,最后自动生成报告。这样的系统会非常有帮助。还有现在大量的AI工作者在做影像识别这块,影像可以很好的辅助医生诊断,但另一方面影像科、病理科医生阅片的工作量是非常大的。AI能够提高他们的效率,而且能够查漏补缺,价值非常大。交互本身也可以做一些取代人类诊断的过程,对一些精神类疾病,比如自闭症,越早对患儿进行干预效果是越好的。但是在中国由于重视不够,早期筛查还不普及。国外有很多的应用,通过表情识别包括追踪眼睛的注意力,对可能患自闭症的小孩进行评估,还可以用AI交互机器人辅助他的康复训练。这个做好的话可以帮助很多家庭。由于自闭症的康复训练需要大量简单重复性的互动训练,如果能让机器人能承担一部分,可以极大地节约机构和家庭的人力物力。同样还有老人,老人有精神类的疾病,会有康复中心带他们做小游戏,进行康复训练。那我们是不是有一部分游戏可以让机器人去帮助完成。AI还可以做行动辅助,有些老人站不起来,会不会有能把他托起来的机器人,或者基于脑机接口的外骨骼来辅助行动?这些都是未来人机交互的趋势。孤独的老人没事跟聊天机器人尬聊尬聊,这样也会丰富一下老人的业余生活。 

总结一下,现在人工智能交互技术已经到了一个高速发展的阶段,它有很多应用会对人类的生活起到巨大的帮助作用,我们非常看好这个方向的未来。今天作报告的目的也是希望各位老师和同学更多的关注这个方向,共同推动这个领域相关技术的不断发展。谢谢大家!


(本报告根据速记整理)

CAAI原创 丨 作者陶焜
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会