中国人工智能学会

Chinese Association for Artificial Intelligence

CIIS 2019 演讲实录丨汪小我:基因大数据驱动的癌症液体活检

发布时间:2019-11-04

10月26日-27日,由陕西省委网信办、陕西省工业和信息化厅、陕西省科学技术厅指导,中国人工智能学会主办,西安市委网信办、西安市科学技术局、西安国家民用航天产业基地管理委员会、京东云共同承办的2019第九届中国智能产业高峰论坛在“硬科技之都”——西安举办。在27日生物信息与智慧健康专题论坛上CAAI 生物信息学与人工生命专委会副主任、清华大学副教授汪小我为我们带来了题为“基因大数据驱动的癌症液体活检”的精彩演讲。 

36-1.jpg

汪小我

CAAI 生物信息学与人工生命专委会副主任、清华大学副教授


以下是汪小我教授的演讲实录:   

今天好几个报告人都提到了“癌症”这个话题。癌症是人类健康的头号杀手,每年的发病率、死亡率都很高。而且,随着人类寿命的延长,越来越多的人可能会面临癌症的威胁。在癌症治疗中,早诊早治是关键:如果能够在癌症的早期及时发现并针对性地进行治疗,可以有效提高患者生存率,降低治疗负担。根据美国国家癌症研究所的统计报告,很多肿瘤如果早期发现,五年生存率是很高的,但是很多种癌症,例如胰腺癌、肺癌等,如果发现时已经是晚期,五年生存率会非常低。从治疗的费用来说,早期的肿瘤可以通过一些简单的切除、放化疗等进行治疗,但是晚期即便花很多钱也很难得到好的治疗效果。因此,早发现是癌症诊疗领域最核心的问题之一。 

现在人们已经掌握了一系列方法来检测癌症的发生。市面上常用的方法比如X射线、低剂量螺旋CT、胃肠镜等方式,存在准确率偏低、过程痛苦等一系列的不足。肿瘤检测的金标准方法是组织活检,虽然其假阳性率比较低,但是它对身体的伤害比较大,取样的范围也会影响检测的结果。因此,近年来大家提出了一种新的癌症检测方式,也就是所谓的“液体活检”,利用身体内体液的信息对癌症进行检测。在这个领域中,基于血液的检测又是其中主流,比如大家现在做体检时可能会检测的甲胎蛋白、CA19-9等一系列癌症蛋白质标记物。这一类蛋白质标记物虽然临床应用很多,但是它们的检测精确度、尤其是针对早期癌症的检测精确度很低,并不能充分满足临床应用需求。同时,液体活检这一领域鱼龙混杂,比如前几年号称“女版乔布斯”的Theranos公司,号称可以用一滴血检测上百种疾病,但是事实证明这是一个骗局,害得很多人血本无归。因此,对于液体活检,我们还需要更专业、更细致的研究和分析。 

实际上,血液里面蕴含非常非常丰富的物质,比如蛋白质、细胞、外泌体、核酸分子等等,携带了大量来源组织和疾病状态的信息,可以很好地反映全身的动态情况。在大家比较关注的肿瘤循环细胞、游离DNA、外泌体等跟癌症有关的血液信号中,我们认为血浆游离DNA(cell-free DNA, cfDNA)是一种非常有应用价值的信号,因为它比较稳定,相对数量也比较多,而且里面蕴含着基因突变、拷贝数变异等等多层次的基因信息。目前,国内外已经有利用cfDNA进行癌症检测的早期产品批准被用到临床上。所谓的血浆游离DNA指的是游离在细胞外的的碎片化DNA,这些DNA是在细胞的凋亡和坏死的过程释放到血里面的。1989年,人们发现cfDNA里可能会携带癌细胞的突变信息;1997年,人们又在孕妇cfDNA中发现胎儿DNA,这一机制直接催生了前几年方兴未艾的无创产前检测技术(NIPT)。除了血液之外,cfDNA在尿液、唾液等多种体液中也有分布,而且在不同体液中,cfDNA的长度分布等特征会有一些细微的差别。cfDNA作为一种无创的检测技术,应用范围很广,包括肿瘤的早期发现、在肿瘤发生发展过程当中指导疗法和用药,以及在后续的治疗过程中进行疾病的监测、在治疗完成后对肿瘤的复发进行监控等等,具有广阔的应用前景。 

传统的cfDNA检测,主要关注其中基因序列的改变,比如DNA的突变、拷贝数的变化以及插入到细胞基因组内的病毒基因组等等,这些信息都有可能通过分析血液里面的cfDNA信息被检测出来。目前已经有很多公司开发产品,通过序列模式上的改变来检测肿瘤或其他疾病的发生,这些技术可以被笼统地称为“第一代液体活检技术”。然而,第一代液体活检技术但是目前存在一些难以被克服的问题,其中最本质的难点是,正常人体里面各个组织也会不停地向血液里释放cfDNA,导致cfDNA本质上是一个混合信号,其中的癌症信号十分微弱。在癌症发展早期、体积比较小的时候,cfDNA中异常的占比有百分之一,甚至千分之一,精确提取这些微弱的癌症信号十分困难。另外就是对癌症发生的位置进行溯源的问题:在形成受精卵之后,我们全身的DNA序列信息就基本上确定了,不同组织的序列信息基本上是一致的;在这一前提下,如何确定那些异常的DNA从哪儿来,精细定位癌症发生位置,是一个很大的难题。 

表观遗传信息可以在一定程度上解决上述的两个问题。尽管我们体内的DNA序列信息基本一致,但在不同情况下,这些DNA会产生一系列的表观修饰(比如DNA甲基化),在不同类型的细胞、不同组织之中,DNA表观修饰的模式会有很大差异。另外,还有一类非常有价值的信息是cfDNA片段化模式,这一类信号也蕴含着DNA的组织来源信息,能够帮助我们找到异常DNA的来源。最近也有一系列的研究逐渐揭示这些信号的价值,比如人们发现可以利用cfDNA的全基因组甲基化测序数据揭示这些cfDNA的组织来源;也有团队发现,从肿瘤来的cfDNA的长度会更短一些,如果对于片段长度进行精细的分析,也能够找到其组织来源的蛛丝马迹。 

全基因组的甲基化、片段化模式在肿瘤和正常细胞之间很不一样,其中蕴含的信息很丰富,但是单一特征并不能提供很完整的信息,帮助我们解决癌症的检测和溯源问题。单一的特征很难为检测提供足够的准确性,比如说某疾病在人群发病率是千分之一,若检测结果的特异性为99%,检出率为90%,当一个人检测结果显示阳性时,其患病的可能性多大?不到10%。这是一个典型的贝叶斯统计问题。好在随着高通量测序技术的发展,催生了“第二代液体活检”技术,利用超大的数据量、全基因组的数据覆盖和精细分子特征的测量,可弥补利用单一或少数特征检测癌症的不足。如果我们去医院体检,抽血提取cfDNA进行全基因组测序,这个时候我们获得的数据量可以非常大。通过对这些超大数据量进行详细挖掘,将我们以前对单个的突变特征检测,转变为利用数据和信息技术把高维度特征(比如序列变化、甲基化差异、片段化模式改变等)整合到一起,可以做到更精准的肿瘤检测。 

利用海量数据进行癌症液体活检,实际上是将先进的生物技术和信息技术进行有机整合的过程。为了获取高质量的、稳定的cfDNA生物信息,我们首先对cfDNA的捕获建库技术进行了优化。我们通过对实验技术进行改进,实现了仅利用3毫升左右血浆,即可在一次建库、测序过程中同时测得cfDNA的甲基化模式和片段化模式信息。同时,我们还对这一建库过程进行了实验流程自动化开发,进一步提高实验的稳定性和数据的质量。 

在此基础上,我们在全基因组的尺度下通过对高通量测序的数据进行挖掘,找到关联的标记物,提高算法对微弱信号的检测能力。以前的位点检测主要针对的是基因组里面的编码区,然而编码区在整个基因组里的比例不到2%,剩下的98%被大家忽略的区域中也可能蕴含着丰富的与癌症相关的信号。在这些区域中,有一类特殊的序列叫做“重复序列”,它们在传统的研究中大部分情况下容易被忽视掉;但是重复序列是一个天然的放大器,比如说一种叫做rDNA的重复序列,在基因组上有高达400个拷贝,使它的信号更加容易被检测到。我们从DNA甲基化的角度对重复序列进行了一系列的分析,发现rDNA这一类重复序列上的甲基化模式在肿瘤和非肿瘤的组织之间有非常明显的差异。进一步地,我们在多种肿瘤中对rDNA的编码区和非编码区分别做了分析,发现在编码区中,健康和肿瘤样本也零星的呈现出一些差异,但是差异总体来说较小;而在非编码区中,甲基化模式在健康和肿瘤样本之间呈现出非常明显的差异。我们进一步在cfDNA的测序数据中观察这些区域的甲基化模式,发现在rDNA的非编码区中,健康人群血液样本的差异很小,意味着检测背景的噪声很低;而多种肿瘤样本的这一区域的信号和健康人群又存在着很大的差异,所以这些区域似乎可以作为有效区分肿瘤和健康状态的标记物。我们通过对这些位置进行分析,发现对很多位点的甲基化状态,在实体瘤和外周血有非常明显的差异;而组合10个标记物位点的信息,综合预测癌症发生,拥有很好的分类效果。我们进一步发现,这些rDNA重复序列标记物在测序数据量较低时仍能保持很好的分类效果,显示其具备浅测序深度下的癌症检测能力。此外,我们通过对两例癌症患者的数据进行分析,发现在进行手术后,其中一位患者利用我们筛选的标记物位点得到的肿瘤预测分数一直很高,而另一位预测较低;预测分数较高的患者在术后很快就产生了肿瘤的转移而去世,而另一位患者在术后20个月仍然存活,显示这些rDNA重复序列标记物具有一定的监测病程、监控复发的能力。 

事实上,除了重复序列之外,全基因组水平上还有很多其他蕴含丰富信息的区域。单个区域的信号通常很弱,那么,我们能不能把很多信号弱的区域组合起来,综合得到更强的信号?事实上,甲基化信号不是以单个位点的尺度独立存在的,而是跟其周围的序列信息存在很强的关联。因此,我们希望利用现在已知的数据,挖掘其中的多层次信息,对cfDNA中的癌症信号进行精准分离解耦,综合预测癌症发生。我们希望把DNA序列的信息整合到DNA甲基化的分析之中。我们将基因组的序列信息和甲基化信息进行编码,训练神经网络模型,区分每一条DNA序列的组织来源。我们发现,神经网络中呈现出来一些有趣的序列特征,这些特征实际上是和癌症相关的DNA序列motif一致的,显示了这一神经网络模型确实提取到了很多数据中有价值的信息。我们利用这一模型对癌症组织和健康组织来源的DNA片段分别进行打分,发现一部分癌症组织来源的DNA确实得分很高,显示这一模型可以很好地区分来自肿瘤和非肿瘤区域的序列。在此基础上,我们把多个不同DNA区域的信息整合在一起,对肝癌cfDNA的测序数据进行分析,预测肝癌的发生,取得了很好的分类效果;而且,预测模型给出来的癌源DNA比例的预测值和跟实际肿瘤大小之间呈现出比较好的相关性,显示了利用全基因组的多位点信息整合可以取得更精准的癌症检测效果。 

在以上工作的基础上,我们现在正在打造一个综合的数据驱动的癌症液体活检分析框架,从实验端到算法端对整个数据获取和分析的过程进行优化。在获得测序数据后,我们首先在数据中提取多维度基因特征,再利用多种机器学习模型,整合多重维度信息,针对应用具体场景对特征进行整合分析,最终实现癌症的早期筛查、发生溯源、疗法选择、复发监测等目的。 

血液中蕴含全身的信息,具有巨大的疾病筛查潜力。而随着高通量测序技术和人工智能技术的发展,癌症液体活检将从传统的单一或少数位点监测,转变为利用人工智能模型驱动海量基因信息的深度挖掘,利用多层次信息整合突破微量信号检测瓶颈,通过算法分离解耦癌症信号增强模型准确性,从而综合解决癌症液体活检信号微弱、难以溯源的难题,最终实现癌症的早期筛查和精准治疗。

(本报告根据速记整理)

CAAI原创 丨 作者汪小我教授
未经授权严禁转载及翻译
如需转载合作请向学会或本人申请
转发请注明转自中国人工智能学会