“外”如探测浩瀚的宇宙,“内”如揭示人体细胞的奥秘,海量的信息必将改变人类社会、改变人类自己。
人类已经逐步进入信息爆炸的时代,各种个人信息、网络行为、生活习惯,甚至各种所谓的隐私、银行账号密码等“机密”信息均无法避免遭遇各种泄露门、监控门事件。肿瘤这个邪恶的幽灵隐藏在体内,时刻准备攫取资源来扩张自己的军队。而我们却对之毫无察觉。 但随着以新一代测序技术为代表的高通量生物检测技术的发展,肿瘤的机密信息也无处遁形,遭遇着前所未有的“信息泄露”,肿瘤的DNA、RNA、蛋白质、代谢物等生物信息都暴露于人类的检测之下。这些海量信息被称为组学信息(omics),如:DNA序列信息是基因组(genomics)、染色质结构和各种基因组修饰是表观遗传组(epigenomics),另外还有转录组、蛋白质组、代谢组等等。从这些泄漏的信息,我们该如何来窥探肿瘤的“隐私”?如何推出更好的对付“肿瘤”的办法?
拿到海量的肿瘤组学数据我们能做什么?首要任务是建立肿瘤的信息档案。就像是地理测绘测绘,首先要用测到的数据把地图绘制出来。目前,几个国际癌症基因组计划,如ICGC(International Cancer Genome Consortium)、TCGA(The Cancer Genome Atlas),都致力于推动肿瘤分子图谱的构建。利用TCGA的数据,可以识别在肿瘤细胞中发生的体突变,并从中识别出影响蛋白质结构与功能的突变位点(Niu et al., Nat Genet 2015),另一项类似的研究从超过7000余对肿瘤/癌旁配对样本中识别出超过47000个非同义突变位点,极大的提高了人们对肿瘤突变谱的认识(Shen et al., Am J Human Genet 2016)。基于突变谱,可以更好的估计靶向药物的潜在应用比例,经计算估计约40%的病人可能会受益于靶向药物(Rubio-Perez et al., Cancer Cell 2015)。
但由于肿瘤的高度异质性以及不同中心采样和检测手段的差异,单个项目所纳入的样本量仍然远远不够,以肝癌为例,在TCGA中有约400例样本,已经是目前公开数据集里样本数最多的了。为了更好的绘制“肿瘤的地图”,必须建立跨更多数据源的大规模图谱。比如本课题组构建的肝细胞肝癌(Hepatocellular Carcinoma,HCC)组学图谱HCCDB,已经收录了约3500例临床样本的基因/miRNA表达数据、约800例DNA甲基化数据、约600例CNV数据(来源于17组研究),目前可提供表达谱的网页浏览服务。多来源/多中心、大规模的组学数据是建立肿瘤信息档案的基础,基于这些收录的数据,我们已经开展了HCC的DNA甲基化图谱分析(Zheng et al. Brief Bioinform 2016),正在进行基于表达谱的HCC分型研究。同时,HCC相关研究人员可以方便的查询分析结果,指导相关的实验设计,提出更加合理的假设。比如某研究人员正在关注HCC肿瘤干细胞的调控机制,他可以用EPCAM、AFP、SPP1等候选基因来查询相关的通路或基因。信息爆炸的时代或者说大数据时代,绘制各种“地图”是实现数据价值的第一步,从多个维度、多个层次构建“肿瘤地图”是以信息技术攻克癌症的基础和关键。类似的,大肠癌也建立了超过4000例样本(来源于18组研究)的大规模数据集,并基于该数据集分析出大肠癌的四个分子亚型,并得到了每个分子亚型所特有的分子和表型特征(Guinney et al. Nat Med 2015)。
有了基础地图之后,我们当然需要将其绘制得更加精细,并利用“先人的知识”对其进行仔细的标注,比如在军事地图上需要标注出关键的制高点、隘口等。这个时候人工智能技术就非常重要了,针对癌症组学数据高维、异质等特性,需要更好机器学习方法对数据进行挖掘和建模,比如聚类(分子分型,如多组学整合聚类方法LRAcluster)(Wu et al. BMC Genomics 2015)、预测(分子标志物),核心调控网络识别(分子机理)(Gu et al. Mol BioSyst 2014))及其可能的调控策略(药物干预)等。由于生命系统高度复杂,组学数据并不能很好的完成“地图标注”的任务,必须要跟专家知识、文献信息有机的结合起来。这对传统基于采样数据的机器学习方法无疑是新的挑战。可以预见,要更好的解读肿瘤的信息,必须建立可融合采样数据和知识数据的新的人工智能方法。深度学习(deep learing)(LeCun et al. Nature 2015)与层级贝叶斯学习(hierarchical Bayesian learning)(Ghahramani. Nature 2015; Lake et al. Science 2015)的结合是否是可行的路径?这些都还有待进一步的研究。
随着生物医学检测技术与人工智能的发展,肿瘤的“机密信息”将不断的被披露,人们将拥有更多肿瘤诊疗的新手段。
参考文献
Ghahramani. Probabilistic machine learning and artificial intelligence. Nature 2015, 421:452-459.
Gu et al. Gene module based regulator inference identifying miR-139 as a tumor suppressor in colorectal cancer. Molecular BioSystems 2014, 10(12):3249-3254.
Guinney et al. The consensus molecular subtypes of colorectal cancer. Nat Med 2015, 21(11):1350-1362.
Lake et al. Human-level concept learning through probabilistic program induction. Science 2015, 350(6266):1332-1339.
LeCun et al. Deep Learning. Nature 2015, 521:436-444.
Niu et al. Protein-structure-guided discovery of functional mutations across 19 cancer types. Nat Genet 2016, 48(8):827-837.
Rubio-Perez, et al. In Silico Prescription of Anticancer Drugs to Cohorts of 28 Tumor Types Reveals Targeting Opportunities. Cancer Cell 2015, 27:382-396.
Shen et al. Proteome-Scale Investigation of Protein Allosteric Regulation Perturbed by Somatic Mutations in 7,000 Cancer Genomes. Am J Hum Genet 2016, EPub.
Wu et al. Fast dimension reduction and integrative clustering of large-scale multi-omics data using low-rank approximation: application to cancer molecular classification. BMC Genomics 2015, 16:1022.
Zheng et al. Genome-wide DNA methylation analysis identifies candidate epigenetic markers and drivers of hepatocellular carcinoma. Brief Bioinform 2016, Epub.
来源:古槿科学网博客 作者:古槿
为你推荐
资讯 核药创新再破局!远大医药TLX591-CDx国内NDA获受理
远大医药(0512 HK)再度传来核药重大利好——公司用于诊断前列腺癌的创新放射性核素偶联药物(RDC)TLX591-CDx向国家药监局递交的新药上市申请(NDA)已获受理。
2026-01-19 21:29
资讯 eCTD验证软件更新V1.1.0版,3月1日起,V1.0版及配套操作手册将不再适用
本次更新内容主要包括新增原料药申请验证规则,调整PDF文件书签、超链接和文件大小验证规则、完善部分文字描述等。
2026-01-19 14:18
资讯 阿斯利康获得西比曼靶向GPC3细胞疗法50%的全球权益
1月16日,西比曼生物科技宣布与阿斯利康达成协议,后者将收购西比曼在中国对C-CAR031的开发和商业化权益的50%份额,由此阿斯利康将获得C-CAR031在全球范围内开发、生产和商业化...
2026-01-19 13:19
资讯 2025年国民经济数据:16—59岁人口85136万人,占全国人口的比重为60.6%;60岁及以上人口32338万人,占全国人口的23.0%
全年出生人口792万人,人口出生率为5 63‰;死亡人口1131万人,人口死亡率为8 04‰;人口自然增长率为-2 41‰。
2026-01-19 11:41
资讯 2026年1月14日起,均适用《Q8、Q9和Q10问答(R5)》国际人用药品注册技术协调会指导原则
自2026年1月14日起开始的相关研究,均适用《Q8、Q9和Q10问答(R5)》。
2026-01-19 11:24
资讯 糖尿病治疗1类创新药奥洛格列净胶囊获批
1月16日,国家药监局官网信息显示,近日,国家药品监督管理局批准宜昌东阳光长江药业股份有限公司申报的1类创新药奥洛格列净胶囊(商品名:东泽安)上市,该药适用于改善成人2型...
2026-01-17 23:20
资讯 CDE:中药复方制剂新药研发人用经验收集整理技术指导原则(试行)
人用经验是“三结合”中药注册审评证据体系的重要环节。如何产生可评价的人用经验、怎样收集整理人用经验数据,对于筛选确定临床有效处方、合理利用人用经验支持后续研发及决策...
2026-01-16 21:09
资讯 国家医保局再发布两起行贿案例
继发布《医药咨询服务企业涉商业贿赂案》和《党某海犯非国家工作人员受贿罪案》后,国家医保局再次发布《慈某龙行贿案》和《重庆康荣医疗设备有限公司涉商业贿赂案》。
2026-01-15 11:49
资讯 阿斯利康收购AI制药公司Modella AI
美东时间,本周二,阿斯利康在摩根大通医疗保健大会上宣布,已收购总部位于波士顿的Modella AI,这是首次有大型制药公司全面吸收一家专业人工智能公司。
2026-01-14 17:21
资讯 甘李药业甘精胰岛素获欧盟上市许可,将于赛诺菲同台竞争
1月14日,甘李药业盘后发布公告,甘李药业股份有限公司及其欧洲全资子公司甘李药业欧洲有限责任公司(Gan & Lee Pharmaceuticals Europe GmbH,以下简称“甘李欧洲”)于近...
2026-01-14 16:52
资讯 第六批国家高值医用耗材集采药物涂层球囊类、泌尿介入类中选结果公示
1月14日,国家组织高值医用耗材联合采购办公室发布国家组织药物涂层球囊类、泌尿介入类医用耗材集中带量采购中选结果公示,即第六批国家高值医用耗材集采。
2026-01-14 14:44
资讯 CDE:单臂临床试验用于支持抗肿瘤药物常规上市申请技术指导原则
目前大部分基于 SAT 结果获批附条件上市的抗肿瘤药物是以 RCT 作为确证性研究。在某些情况下,难以采用需要较大样本量的 RCT 进行确证性研究,可以采用一些新的临床研发模...
2026-01-13 16:58









