中国人工智能学会

Chinese Association for Artificial Intelligence

CIIS 2019 演讲实录丨高琳:基于网络模型的组学数据分析及在癌症中应用

发布时间:2019-11-23

10月26日-27日,由陕西省委网信办、陕西省工业和信息化厅、陕西省科学技术厅指导,中国人工智能学会主办,西安市委网信办、西安市科学技术局、西安国家民用航天产业基地管理委员会、京东云共同承办的2019第九届中国智能产业高峰论坛在“硬科技之都”——西安举办。在27日举办的生物信息与智慧健康专题论坛上,西安电子科技大学教授高琳为我们带来了题为“基于网络模型的组学数据分析及在癌症中应用”的精彩演讲。

19-1.jpg

高琳 

西安电子科技大学教授

以下是高琳教授的演讲实录: 

非常荣幸能在这里做一个报告,今天是生物信息学的专题,我们也一直在从事这方面的工作。我今天报告的内容也是和生物数据的分析有关系,因为我们的背景是计算机和智能科学方面的研究。今天的主题以网络模型为基础,挖掘和癌症相关的模式,试图探究癌症发生发展的机理是什么。 

这是张老师负责的国家精准医疗的重点专项项目,我参与到了这个项目里面,我的工作应该是在项目的大背景下,但是不仅仅局限于这个。现在作为我们来讲研究和癌症相关的问题,我们从什么样的角度去研究它呢?一般有两个出发点,要么我们以某种假设为出发点去对这个问题展开研究,要么我们是以数据驱动来对这个问题进行研究,而我们的工作是以数据驱动问题的研究。首先我们得有这些数据,目前已经有各种各样组学的数据,以及其他相关的数据,有了这些数据以后我们如何通过这些数据的分析去找到和癌症相关的模式,,试图去解释癌症发生的机理。那么怎么样完成数据的建模分析?我举例进行说明。 

这是我们看到的组学数据,有基因组的数据、转录组、蛋白质等等,我们的目标就是如何对这些数据进行一个有效的挖掘,试图找到疾病相关的基因,包括治疗的靶标,最后我们希望在这个基础上做一些软件系统,为医疗提供帮助。关于组学数据的理解,比如说基因组数据的理解应该有不同层面的,有单个基因的变化,另外也可能是基因组上的一个碱基或者片段的变化,另外也可能是比较大的基因组的重组等等,其次就是转录组的数据,蛋白质组的数据等,。看一下基因组和转录组之间,有表观组,把表观组也可以归到基因组的层面上,基因组的序列没有发生变化,但是它的表观修饰发生了变化,修饰的变化也可能导致下游基因的表达失常导致疾病的发生等等。另外在基因组层面上,由于近期生物技术的发展,有了三维基因组的数据。 

数据是表象,而癌症的发生是客观事实,我们的目的是透过现象看本质,数据是对本质的反映,有了这些数据,如何通过表象数据看到癌症发生的本质是什么。这个是2018年4月5日《Cell》专门对癌症进行了报道,TCGA的数据在不断丰富,已经有了33种常见的癌症,超过了11000个肿瘤癌症的样本数据。当然现在也有很多医院他们自己去测序,由于我们跟医院没有合作,只能使用公共的数据去做分析。但是这些公共的数据对于我们来讲也是一个契机,现在摆在我们面前的任务,有了这些数据以后我们如何对这些数据进行分析,由于这里面有不同类型的数据,这样的话对我们的分析,包括我们对这个问题的理解都存在很大的挑战。其次近几年随着单细胞测序的发展,我们依然可以从单细胞数据层面上去理解癌症,尤其是在癌症的异质性的研究,单细胞数据起了非常重要的作用。 

我们现在瞄准的问题如果是癌症,刚才我也讲到了有各种各样的组学数据,有了这些数据以后我们如何对它进行分析,这里面就要借助于数学及智能信息的手段对数据进行建模和分析,而我今天在这里聚焦的是网络模型,但是既使是通过网络建模,在后面的问题求解中也需要用到机器学习的方法。我们有不同组学的数据可以进行分析,单细胞的数据依然可以做这样的工作。单细胞数据,目前最丰富的是转录组数据,有甲级化数据,蛋白质组、基因组层面数据目前还没有看到,相信随着生物技术的发展,有了对应于BULK测序的数据,将来在单细胞层面上进行组学数据的集成,去研究相关的方法,从这个层面上通过数据集成的方法研究致癌基因,包括治疗靶标的预测等等方面的工作。单细胞数据的出现对于癌症的异质性研究带来了很大的契机,有望对癌症异质性有比较深入的理解。这个是关于癌症,不同病人之间有癌症的异质性,同一个病人内部不同细胞之间也会体现不同的异质性。另外对于基因组的数据来讲,现在有了三维基因组的数据,这个数据是希望在三维结构及调控机理的层面上进行研究,我们目前在三维结构的鉴定方面也做了一些工作,这个是内部的一个结构,染色质像毛线团一样缠绕形成不同层次的结构,从2012年第一篇文章出现以后,出现了大量的这方面的研究工作。当然不同的生物技术,产生了不同的数据。染色质是什么样的结构在细胞内存在的,结构之间是什么样关系?我们更想了解的是,大家都知道在生物里面有四个非常重要的词汇(序列,结构,功能和进化),序列决定了结构,而结构决定了功能,染色体在细胞内通过缠绕形成这种结构,这种结构在功能上面,在疾病的关系上面又有哪些方面的影响呢?这个也是我一直在关注的问题,当然这一方面由于现在数据的缺乏,但是我们已经看到了有这方面的文献报道,另外也可以从三维基因组层面研究物种的进化。 

前面我说了很多数据,对于我们来讲数据给我们提供了表象的依据,我们用这些数据可以去进行相关问题的解答,在2011年有这么一篇文章,计算机科学家和癌症的关系,计算机科学家也可能有助于帮助去解决癌症。因此我们说有了这些数据以后,我们说癌症的研究其实就变成了一个大数据的科学,在这里面派生出不同领域的研究问题,产生了这么多的数据以后我们如何对这些数据进行存储和处理?其次我们如何对这些数据在分布式的环境下进行分析?另外我们如何来保证这些数据的安全,但是又能够让不同的人使用共享到这样的一些数据?其次我们有了这些数据,如何在这个数据里面找到有意义的(英),也许(英)可能是潜在的治疗靶标,或者解析癌症发生的机理等等。现在底下标蓝色的部分,是在这些问题里面我们所关注到的问题,就是把有意义的模式找出来,通过这些模式试图解析癌症发生的机理,以及对治疗提供依据。这样以来我们认为癌症是复杂的数据科学的问题,对于这样一个数据科学的问题,我们现在拿到的是数据,有了数据我们的目的是什么?我们的目的就是要在数据里面找到相应的模式,结合我们研究问题的背景做出各种有意义的假设,有了这些假设,我们去建立计算模型。但是在这里面比较困难的,黄颜色的部分是生物问题,我们对它进行假设的时候,要对问题有比较深刻的了解,比如生物的背景,因为问题需要进行假设,才能够建立起来后面的模型和计算的方法。另外这里面最最困难的问题,得到结果以后如何对这个结果进行评价,它必须形成一个闭环,也就是说你的问题来源于生物的问题,由于你是通过一些假设和估计去构建这个模型得到解决、得到答案,但是你这个答案它是不是有意义的?目前这对我们来讲是最困难的问题。 

下面我们考虑有了这些数据以后,我们可以认为它是一个数据科学的问题,如何来对它进行建模。由于这些数据的来源不同,有的数据规模大,有的数据规模小,要把这些数据集成起来,因此它就应该是,我们要通过一种数学的表达和计算的方式来完成它。另外这是站在我们信息的角度,但是反过来站在生物的角度,早期我们有一个分子生物学的概念,它是研究单个的生物大分子,但是2000年的时候美国有一个系统生物科学家提出了系统生物学这个概念,这个理解起来很容易,原来研究的是单个的生物大分子,而系统生物学研究的是分子和分子之间的相互作用关系,因此我们说分子和分子之间的相互作用的关系,它是生物的一个概念,而这个概念对应到我们的信息里面就是网络,网络的节点就可以表示一个分子,而分子之间的关系我们就可以用网络刻划它,之后有了系统生物学的概念,我们就可以对应于我们信息里面的网络的概念把这个问题给它表达出来。因此我们说系统生物学这样一个概念刚好可以满足我们这样一个需求,可以把不同类型的数据集成起来,我们在网络这样一个模型基础上来开发有效的方法,来解析复杂的生物系统。网络为什么能把不同特征的数据结合在一起呢?网络我们可以把它表示成不同的类型,比如我们可以把网络比作多层次的网络,比如说我们有基因的网络,疾病之间的网络等等,也就是说网络中的网络来表示它。另外一种我也可以把它表达成超网络,网络里面的每一个节点属性是不同的,因此我们把它称为异质性,网络里面的节点可能有基因,可能有编码基因,基因和非编码基因就是两个不同属性的,比如我也可以有其他类型的等等,这样我们把它称为异质网络,这样我们就可以把不同组学的数据用网络非常好的表达出来。因此这样我们就形成了一个观念,我们以网络为中心的疾病观点,这个网络能够把我们的数据和系统生物学这样一个概念非常好的联系起来,它能够去解析基因和表型之间的关系。 

为什么用网络呢?首先我们拿到了很多数据,有的数据本身就是网络,比如有病人样本的网络,另外在细胞里,系统之间是分层次的网络系统,蛋白质的相互作用网络,代谢网络,细胞网络等等,它们本身就是一个网络,数据本身的存在就是网络。另外使用网络建模最后做出来的结果是不是有意义的?我们一直都在关注网络领域的科学家,其实早在2007年的时候他就写了一篇文章,他提出了“Networkmedicine”这个概念其涵义是以网络为基础的疾病以及药物的研究,提出这个概念以后后续有很多的研究都是在网络建模的情况下,做出的很多结果都是符合依据的,包括疾病和疾病之间的关系。我们对于不同组学的数据都使用到了网络的模型。第一这些数据可以非常容易的建模成网络,为什么用网络呢?因为早期用这个概念有很多成功的例子,还有一个更重要的方面,我们建模成网络以后怎么样完成它的运算,网络在运算上会带来哪些便利呢?早期我们可以把复杂网络的很多理论,包括图上面的算法结合进来,但是由于有些数据规模很大,我们用网络非常容易的建模,但是当数据很大的时候,数据结构里面有图,图的规模很大,有些算法的复杂度很大,怎么办呢?近期的机器学习也给我们带来了契机,我们用网络非常好的建模,但是如果我们把机器学习或者表示学习和网络结合起来,我们就可以解决运算大的问题,我们可以把机器学习和生物网络结合起来,我们在网络上进行深度的学习,我们在网络上去进行表示学习,这个主要是解决网络建模数据规模大的问题。 

为什么我们用网络建模,从方法的层面也讲了,现在大家可能比较模糊,你用  网络建模以后你在里面找什么东西,它是有什么意义的。我从四个方面介绍一下,对于一个网络来讲无非是两个要素,一个是顶点的要素,一个是边的要素,其次是顶点和边连成子结构,对于网络里面的节点来讲,有了网络以后我们会有一个问题进行网络里面的节点类型进行预测,比如说节点的分类问题。另外有了这个网络以后,网络中边的关系随着时间是发生变化的,我们在预测网络里面是否会有新的边出现。接下来是子结构,边和边形成子结构,这种子结构在我们社交网络里面就是社团,我们生物里面把它叫做模块。第四个层面,有了两个网络以后我怎么样去衡量两个网络之间的相似性。举例说明,有了一个网络如果进行节点的预测,比如蛋白质功能的预测,我们在这里对蛋白质功能进行分类就可以预测到蛋白质的功能;比如药物重定位的问题,现在有一个很重要的问题,在这里药物是不是能够治疗打问号的疾病,相当于网络中新的连边的预测。还有稠密模块的挖掘问题,其实就是在网络里面找一个稠密的子结构,这个网络里面找到基因互相连接的模块,这几个基因联合起来导致疾病的发生。它可以和机器学习结合,这就是我刚才提到的表示学习问题,我们怎么样通过表示学习来解决计算难度的问题。 

下面给举例说明我们关于癌症的几个研究,癌症的子分类,甲级化癌症分析以及组合治疗靶标的识别问题。关于癌症子分类目前有很多方法,但是每个方法都说自己好,但是怎么样去评价,我们做了一个软件,希望对已有的5种典型算法做出评价,这是一个开放式的软件,用户有新的算法以后,可以和软件中已有的算法做比较。另外我们也对泛癌症在甲级化层面做了分析,我们发现了一个非常重要的现象,为什么这个enhancer区域在癌症样本中表现出显著高甲基化?一般认为,甲基化的变化与转录因子的绑定和解绑定密切相关,我们发现,此区域是EZH2的绑定位点,因此我们认为在癌症样本中EZH2的解绑定导致此区域失去了保护,从而发生了高甲基化。因此我们得出一个简单的模型用来说明此enhancer区域如何在癌症发生中发挥功能:即在正常样本中,由于EZH2的绑定,保护其不被甲基化,从而激活BVES和PRDM1两个肿瘤抑制基因的表达,从而抑制肿瘤的发生,而在tumor样本中,EZH2解绑定导致此区域发生甲基化,从而抑制了BVES和PRDM1的表达,促进了癌症发生。 

最后介绍我们做的组合治疗靶标的工作,这个工作的动机是什么呢?由于现在癌症病人的治疗,前面有手术有化疗,包括化疗靶向治疗包括现在的免疫治疗,但是就在各种各样的治疗手段里面会产生一个耐药性的问题,因此我们是不是可以进行组合治疗,由于时间的缘故,不再仔细介绍了。 

总结一下,因此我们的工作,有了这些数据以后怎么样用数据建模,另外如何把不同的数据集成起来,最后得到的结果怎么样进行评价,有没有重要的生物发现,这可能才是最核心的,因此现在人工智能的方法和生物数据分析结合起来,期待有重要的发现。我们现在也做了三维基因组方面的工作,这个是我们做的关于基于三维基因组数据的结构鉴定,我们想期待通过这个结构将来研究其与生物功能的关系。 

我在这里非常感谢这几个博士生,非常感谢NSFC项目的资助,感谢科技部重点专项资助!

(本报告根据速记整理)

CAAI原创 丨 作者高琳
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会