中科院院士陈润生:人工智能和大数据如何催生精准医疗?

医疗健康 来源:雷锋网 作者:AI科技评论
2016
11/03
11:07
雷锋网
作者:AI科技评论
医疗健康

11月1日,在 由新华网与南京市经济和信息化委员会主办的首届中国智谷大会人工智能与产业创新高峰论坛上,生物信息学家、中科院院士陈润生做了了题为《大数据与精准医学》的演讲。陈润生院士认为,随着人工智能和大数据等技术的应用于医学领域将会推动精准医学的发展,在疾病发生之前进行采取针对性的措施,从而改变医疗健康的概念。同时,人工智能和大数据也对研究我们遗传信息中97%的、我们尚未了解的“暗物质信息”起到关键作用。总体来看,精准医学才刚刚上路,还存在很多的机会。

以下是陈润生院士演讲全文,雷锋网在现场实录基础上进行了不改原意的编辑:

尊敬的各位专家、各位领导、非常荣幸能参加这个会,我想今天我就大数据和精准医学谈一个看法,因为现在大家知道,精准医学非常热了,虽然比起人工智能还是小弟弟,但是我们知道,2005年1月20号美国总统奥巴马在他发表的美国要开展精准医学研究,从那以后,精准医学就在全世界得到了普遍的重视,在很多发达国家包括我们国家不仅仅是大家都很关心的一个领域,我们国家领导人也多次对于精准医学的发展都有重要的指示,而且在资助上也有具体体现。所以我今天主要谈精准医学的四个方面问题,一个是跟大家交流,也希望展开一些讨论。

1. 精准医学是组学大数据跟临床医学的结合

第一个问题,精准医学的本质是什么,核心是什么?我看到国内有各种各样的评论,关于讨论精准医学的内涵,各种观点都有,我自己觉得,精准医学的核心其实就是一点,非常明确,就是组学大数据跟医学的结合,说得更具体一点,就是组学大数据跟临床医学的结合。也就是说,把组学大数据用到临床的医学当中来,提高医疗诊断的准确度,提高治疗的效果。

这里又包括两层含义,一个含义是组学大数据,另外一个含义是医学。那么组学大数据又包括两层含义,一个是组学,一个是大数据,我们知道,近年来,随着临床研究的发展,我们获得了越来越以基因组为代表的分子水平的人类信息,这个是以前前所未有的。那么,随着以基因组为代表的组学数据的发展,人们越来越多的积累了以遗传密码为代表的不仅仅是基因的信息,也包括蛋白的信息,那么后来,人们发现,挖掘这些信息以后会得到很多的反映人类健康和疾病的信息。所以有人提出,如果把这些信息应用到临床当中来,一定会提高临床的效果,这就是所谓精准医学的本质含义。但是,只获得这些遗传密码的信息是不够的。

大家知道,所有遗传密码的信息都是非常非常多的一个大数据,这个大数据大家是很容易测得的,包括我们现在知道在我们国内,每个人花一万块人民币就可以得到你的遗传密码,但是你得到你的遗传密码你是一点都不懂,因为这只有四个字(A、C、G、T),所以要读懂他,你就要发展大数据分析的理论方法和技术。所以,那么要把这些组学数据用大临床当中来,必须是组学数据和大数据分析方法的结合。所以一部分是组学大数据,一部分是医学,两个结合起来,就构成了现在精准医学的本质和核心,这是第一个问题。关于精准医学的本质,他也是自上世纪90年代由于组学数据用到临床当中,发展转化成转化医学,个体化医学,现在从2011年有出了精准医学的名称,但不管怎么说,都是他的本质是清楚的,就是组学大数据在临床医学当中的应用。

2. 精准医学有可能改变医疗健康的基本概念

第二个问题:精准医学能够使医学带来哪些本质的变化。如果精准医学只是把医学提高一点点百分数的话,我想,那么精准医学就不一定会引起更多领导人的注意。就精准医学的内涵,一定会有一些本质上的变化,那么这个本质上的变化是什么?我们也用一句话来说,精准医学他的本质上所以引起各国领导人的重视,是精准医学有可能改变医疗健康的基本概念,也就是说,促使医疗的基本概念从当前的诊断治疗转变成健康保证。

我们知道,现在的医疗体系面对的是病人,那么他主要是对病人进行所谓的治疗,但是,未来因为精准医学的发展,由于组学大数据的介入,那么就会使得这个时候的健康不仅仅是对病人,而是对全民,对任何人在他没有得病的时候我们测量他的组学数据,分析组学大数据,那么就可以对他未来健康发展的危险因素做出评估,根据评估进行适当干预,这样的话有些疾病不发展,有些疾病减轻他的程度,提高他的生活质量,这样就把整个医疗健康体系的关口前移,在没有病之前就提出评估与保证。

这样一个根本性的概念的转变,有人认为,有可能导致一些新兴产业的出现,有人预估,跟所谓精准医学相关的这个概念转变导致的新型,也许到2018年也许到2千亿美元的转变,也就相当于将近2万亿人民币,对GDP就有影响。这种有精准医学带来的本性概念的改变由此促使的产业的发展当然会引起各国领导人的注意,这是第二个方面,关于精整医学他可能带来的一些本质变化的估量。

精准医学研究已成为新一轮国家科技竞争与引领国际战略的制高点。大家知道美国要测量100万自然人的遗传密码,欧盟也在积极推动所谓精准医学的研究,包括英国、法国等等,日本也在进行精准医学相关的投入和计划。那么精准医学我们如何仔细分析,他可能在哪些方面促使产业的变革和发展呢?我想至少在四个方面:

第一个可以促使海量的生物样本库和数据库的发展。大家知道,由于精准医学的推动,那么需要测量百万人量级的这些人的组学信息,首先涉及到这百万人生物样品的获取,保管、提取和提供给这些人使用,这当然是一个很大的产业。同时,这些样本测完了数据是百万人数量级的一定要促进相应的大规模的数据库的发展,有人估计,这个产业的规模可能是百亿数量级。

第二个有了这些样品,那么就要测以基因组为代表的这些组学数据,所以就要测基因组、蛋白组、转录组,这些测序的数据,仅仅到2018年,就可以到117亿美金的规模。那么有了样本库,有了组学数据的测量,那么下一步在这些海量数据挖掘的基础上,就可以促进产生大量的新的分子诊断的指标。我们知道,就会增加很多跟疾病相关的信息,这些信息当中,有很多就可以作为新的疾病的标记。同时,也可以发现很多新的药物设计的靶点,这就促进了第三个产业,也就是所谓分子诊断和药物设计靶点的相关产业。

第四个当然伴随着精准医学概念而产生的新的医疗设施,比如说要成立一些健康源,要一些健康师,这些方面是可以和现在医院、医生相关系的产业大概是千亿数量,这些产业必然会带来变革,国内已经有所体现,有成百上千个小的公司在逐渐地成立了。当然他们怎么来更好的发展,有待讨论。

我们国家的精准医学发展目标我不赘述了,跟国际是一致的,这第二个方面,精准医学可以带来哪些本质的变化,如何促进产业的发展,在那几个产业发展可以带动或引导。

3. 如何才能精准?

第三个我要说一个问题是要实现精准医学,要做哪些点?做到哪些点,才能做到精准?那么精准医学我觉得至少要具备两个条件,第一个,要具备组学大数据的基础,我们知道,精准医学就是把组大数据用到临床当中来,所以第一个你要获取组学大数据,那么也就是获取基因组,蛋白组、转入组、代谢组等等这些组学数据,这些数据本身是没有用的,第二步就是组学数据的挖掘,挖掘的话就会用到大数据分析的理论方法,包括刚才张钹院士讲的人工智能的方法,深度学习的方法等等,以知识为基础的方法用来挖掘这些组学,以获得在分子水平上跟疾病相关的知识,这是第一个基础。

有了这些分子知识和组学知识的用到临床疾病当中来,还要建立第二个基础,就是搭建分子水平的以基因型为代表的信息核,建立这种桥梁之后才能有效把分子水平的信息转化应用到疾病的诊断和治疗当中来,那么这就是要建立所谓生物信息学、生物网络,系统生物学等等的方面,有了这两个基础我们就可以更好地实现精准医学,当然一个非常重要的就是精准医学的发展,是应当和当前的临床的影象学、临床的生化检验、当前临床的知识很好地融合下,并不是有些公司他测的序什么都决定了,实际上不是那样,是应该更好地结合起来才能更好做到精准。精准医学只是把新的数据应用在原有的数据上使得更好地提高。

4. 精准医学才刚刚上路

第四个说的精准医学现在在什么阶段,发展到什么阶段?大家知道,可能我们目前精准医学成为大家的热词以后,大家认为我们现在什么都可以精准,医学很容易精准了,我个人的观点,精准医学其实虽然是本质上可能带来变革,可能引导新的产业的发展,也许产业规模是巨大的,但是现在才刚刚上路,才刚刚开始!为什么?是在精准医学的概念下,我们目前依然存在着巨大的挑战,我们依然存在着巨大的困难。因此,我下面会举一两个例子来说明精整医学目前存在什么样的困难?

为什么说精准医学才刚刚上路呢?我们的创新的机遇在哪里,我们迎接挑战在哪儿?我拿组学当中只举一个例子,在我们的临床密码当中,在我们的组学当中,目前,还存在着大量的暗信息,所谓我们的自己的遗传密码目前我们能够从规律上分析的只有一小部分,其他还不能分析的就是基因组当中的所谓暗信息。我们一个人的遗传密码信息是3*10的九次方,如果装订成册,每3千个字符一页,100页装订层一册,那就是一万册。如果一万册书每一册一厘米,我们自己的基因密码书就是就是一百米,大家可以想像,你自己的遗传密码从地面上排到四十层楼房那么高,如果你全部读懂了,你就精准。我相信没有谁能精准,我现在要告诉大家的是集全世界科学家的智慧,包括生物医学家的智慧,这本天书世界上能够从规律上了解的部分只有遗传密码的3%,另外的97%实际上集目前全世界的智慧还不懂。迄今为止我们的遗传密码97%是暗的,我想在下面给大家做一些展开性的说明。

首先从遗传密码来讲,我们其实,我们的97%的遗传密码,从总体,从规律上来讲,我们人类还不了解,那3%我们了解的是从中学大家就知道的,尊从中心发展的蛋白质信息,那3%就是造蛋白质的遗传密码,我们知道他的归类了,也知道他的信息,但另外的97%的遗传密码是跟制造蛋白组无关的,这些信息,迄今为止我们不知道他做什么用的,这就是遗传密码当中的所谓暗物质,也是遗传密码当中的非编码序列,那么这个概念,大家可以想一想,当我们测遗传密码,而97%的密码还不知道的情况下我们如何做到精准呢?所以离精准还差了很很大的距离。

进入21世纪科学家提出问题,说这些我们还不了解的、占人类基因组97%的暗物质遗传密码,那是否有转录产物,是否有信息发放?换句话说,他是否在活动,在行使功能呢?这个结果是100%肯定的,这些非编码序列和我们制造蛋白的那些基因一样,每时每刻都在表达,每时每刻都在起作用,所以他们也是真正地完成生物学功能,那么这些东西我可以举几个例子说明,他跟肿瘤的关系,当然,虽然我们不全部了解它,但是已经有些支离破碎的例子说明他的生物学功能。比如说有一个来自97%的这样一个产物,它叫PCGEM1,可以导致前列腺癌,不是由于蛋白引起的。还有MALAT-1,它可以导致非小细胞肺癌,我们大家知道我们国家肺癌是增速中,我们现在临床医院当中,检测肿瘤用的指标都是我讲的3%,而治疗的靶点你用的药物也是对那3%,我现在告诉你,那97%,有很多例子证明,他也与肿瘤有关,但从来没有纳入到我们临床之诊断和治疗当中来,你想这个肿瘤能治得好吗?你没有考虑他,当然没有想到检测和治疗他,就是说,我们还有一个97%与疾病情况有关的东西迄今没有那么融入到我们诊断治疗的视野当中,这就是精准医学面临着组学的所谓的暗信息的巨大挑战。

我们知道那个97%(的遗传暗物质信息)是和我们疾病,和我们的健康息息相关。我们有多少这样的编码没有发现呢?我们大概有25000个基因,那些97%的我们现在能不能评估一下,他有多少原件呢?因为伦理上的原因对人我们还不知道,遗传研究所对老鼠做过研究,把所有的原件都拿来,管你是编码还是非编码,一共发现的18万1千个,这是在老鼠里面真正执行功能的原件的下限,实际上一定会比他大,在这里发现,产生意义的3%决定了两万个原件,换句话说我们还有16万1千个(非编码RNA)来自那97%,这16万1千个据我所知,目前我们全世界科学家解析了大约1千个,换句话说,还有16万个机会,有太多的机会有些非常重要的元件功能的发现。这些领域2016由这两位就是在那97%研究当中,我曾经开过一个玩笑,大家算算,从1900年研究那3%大约缔造了50名诺贝尔奖获得者,现在知道了还有97%,97比3,那个大约是1300左右,所以我们有一千多个机会在这个领域做出诺贝尔奖级别的原创性特殊贡献,而只有一个位置被占据,所以我们还有巨大的机会。


因此,我们从精准医学来讲,我们现在其实不能做的精准是因为有一个巨大的大数据,只是指他的内涵并没有被挖掘,但是另一方面,他可以给我们提供一个全新的机会,不管对技术研究还是产业发展都有巨大研究,所以对非编码的研究无疑会对疾病的诊断治疗提供全新的诊断方向,或者对药物的设计研发提供新的平台,对新的物种,新的性状的培育提供一个新的基础,对于组学的方向有很多,精准医学其实才刚刚开始。

大家都是大数据的专家,我想我只能非常快的说说题目,其实对大数据的分析,依然存在着有些核心的挑战,第一个数据量大,大家知道,现在的测序仪一个普通的一次运行就可以到1T的数据,全世界有成千上万个这样的仪器,包括我的组里就有所谓的得到一个T的数据,所以这些数据量是非常大的。那么每个人有3×10的九次方。这个数据告诉大家,从数据质量来讲,他的噪音很高,同时又大量缺失值的这样一个数据源。第二个样本很小,我们要解决肿瘤的问题,但是我们知道肿瘤的变量,自变量可能成前上万,但是我们取样本只有百数量级,因此我们为什么要测,比方要研究肿瘤或者是心脑血管病,他的自身变量千数量级,我们的百万级,就像政府,测一百万人总够了,第二个,我们建立合适的数学模型,借助人工智能和机器学习等方法,使得我们能够相匹配。大家知道不仅仅是组学数据,也还有生物学数据,更需要我们不仅仅是科技界,企业界,我们知道我们国内数据共享存在基本一个重要的问题,如果一个数据共享问题不解决,我们就是在大数据时代做小数据的工作,发表小数据的企业,显然不能适应国际竞争的态势。

后面我讲的很粗糙,对不起,占用大家的时间,谢谢!

在陈润生院士做完演讲后,雷锋网记者也对陈院士进行了短暂采访:

问:精准医疗目前最主要的挑战在哪里?

答:我们的挑战很多。精准医疗的基础是组学大数据,包括组学和大数据都存在着挑战。比如组学,我们很容易测量得到数据,但对数据的内涵大部分我们并不知道。从大数据的挖掘本身也有很多问题,今天没有时间展开讲,包括数据本身生物学含义的挖掘,包括数据样本、数据集本身的缺陷比如说缺失值,还有原件之间的相互作用等,都依然存在很多问题。但从另外一方面讲这是机会,我们对于未知数据的研究,了解一点,我们就可以推进一点,然后应用一点,从而推动整个精准医疗的发展。

问:我们进行精准医疗研究的条件和国际相比如何?

答:最近这么多年,我们国家对精准医疗的重视、包括对基础研究方面的投资,实际上从技术条件和研究上来讲并不存在根本困难,困难来自于科研当中的组织等各种方面的问题,以及基础研究如何从思想上来提高创新意识。从发表论文方面,我们是仅次于美国的第二名,但重要的是做到自己的独创性研究,而不是跟随。

问:您有提到“需要百万级别的样本”,我们已经知道像Deepmind、23andme等企业已经在与卫生部门和医院合作获取百万级别的样本数据,我们国内有类似的例子吗?

答:国内有一些项目,如精准医学研究的计划就计划测100万数据,而且也在进行中。但是我觉得测哪个100万数据并不重要,重要的是我们有很多数据,需要有一个机制去整合起来,这样比你不断测试新的数据更重要。

嘉宾简介

陈润生,生物信息学家,中国科学院院士。现为中国科学院生物物理研究所研究员、博士生导师。国际人类基因组组织(HUGO)会员。在基因标注、生物进化、SNP数据分析、生物网络、非编码基因等方面进行了系统、深入的研究,曾参加我国第一个完整基因组泉生热袍菌 B4基因组序列的组装和基因标识,曾参加人类基因组1%和水稻基因组工作草图的研究。近年来主要从事非编码RNA的系统发现与功能研究。

来源:雷锋网   作者:AI科技评论

(原标题:陈润生院士:人工智能和大数据如何催生精准医疗?)

为你推荐

国家药监局支持创新药发展,拟30个工作日内完成临床试验申请的审评审批资讯

国家药监局支持创新药发展,拟30个工作日内完成临床试验申请的审评审批

纳入创新药临床试验审评审批30日通道的申请,应当为中药、化学药品、生物制品1类创新药。

2025-06-16 22:04

诺和诺德与阿里健康启动战略合作,助力慢病管理数字化升级资讯

诺和诺德与阿里健康启动战略合作,助力慢病管理数字化升级

2025年6月16日,诺和诺德与阿里健康宣布达成战略合作。在国家持续推进“体重管理年”行动的背景下,双方将依托诺和诺德百余年深耕慢病领域的专业经验和创新治疗方案,以及阿里健...

2025-06-16 14:58

治疗阿尔茨海默病国产新药断货与思考资讯

治疗阿尔茨海默病国产新药断货与思考

近日,许多患者家属反映买不到治疗阿尔茨海病的新药甘露特钠胶囊,经过了解,也证实该药在许多医院和药店确实“断货”,作为中国治疗阿尔茨海默病处方量最大的药物之一,也是目...

文/上海市精神卫生中心肖世富 广州医科大学附属第二医院刘军 北京和睦家医院李慧英 2025-06-16 11:35

连续第四年,2025年纠正医药购销领域和医疗服务中不正之风工作要点发布资讯

连续第四年,2025年纠正医药购销领域和医疗服务中不正之风工作要点发布

发挥穿透式审计监督优势,加强医药行业专项审计。打通从原材料采购、药品耗材生产、招标采购的监管通路,将监管重点向生产端覆盖。探索建立药品生产加工到流通使用全过程可追溯...

2025-06-13 22:55

国家卫健委:人间传染的高致病性病原微生物实验活动审批管理办法资讯

国家卫健委:人间传染的高致病性病原微生物实验活动审批管理办法

本办法适用于三级、 四级实验室从事《人间传染的病原微生物目录》 规定的应当在三级、 四级实验室开展的人间传染的高致病性病原微生物或者疑似高致病性病原微生物实验活动的审批。

2025-06-13 22:34

半年融资超2亿元,美创医疗攻克“卡脖子”技术资讯

半年融资超2亿元,美创医疗攻克“卡脖子”技术

此次融资将加速美创医疗在医用植入级ePTFE材料产线建设、创新产品研发及商业化推广上的布局,助推中国高端医疗器械真正实现进口替代。

2025-06-13 13:22

拟再易主,派林生物或变为央企控股企业资讯

拟再易主,派林生物或变为央企控股企业

日前,派林生物发布公告称,中国生物技与派林生物控股股东共青城胜帮英豪投资合伙企业(简称“胜帮英豪”)签署收购框架协议,拟受让后者持有的21 03%股份。若本次交易顺利推进...

2025-06-13 12:43

依视路®星趣控®亮相Vision China 2025,重磅发布依视路®星趣控®2.0镜片资讯

依视路®星趣控®亮相Vision China 2025,重磅发布依视路®星趣控®2.0镜片

在2025年视觉健康创新发展国际会议(Vision China)期间,儿童青少年近视管理品牌依视路®星趣控®重磅发布全“星”一代儿童青少年解决方案——依视路®星趣控®2 0镜片

2025-06-13 11:28

景嘉航完成数千万元天使轮融资,专注新型靶向放射性药物开发资讯

景嘉航完成数千万元天使轮融资,专注新型靶向放射性药物开发

近日,杭州景嘉航生物医药科技有限公司(AB-RayBio Therapeutics,简称“景嘉航”)完成数千万元人民币的天使轮融资,由杭实资管领投,正

2025-06-13 10:53

CDE:已取得药品批准文号的两种或者两种以上具有独立的适应症和用法用量的化学药品,如何申请组合包装?资讯

CDE:已取得药品批准文号的两种或者两种以上具有独立的适应症和用法用量的化学药品,如何申请组合包装?

已取得药品批准文号的两种或者两种以上具有独立的适应症和用法用量的化学药品,如申请组合包装,应通过什么途径提出申请,申报资料有什么要求?

2025-06-12 21:44

赛诺菲加速尼塞韦单抗全球发货,提前数月助力医务工作者应对今年RSV流行季资讯

赛诺菲加速尼塞韦单抗全球发货,提前数月助力医务工作者应对今年RSV流行季

赛诺菲将于2025年第三季度初启动尼塞韦单抗的全球发货工作,以确保在2025-2026年呼吸道合胞病毒流行季来临前,实现广泛供应。

2025-06-12 17:31

瑞辅达医疗完成数千万元B轮融资,加速国产辅助生殖技术创新与全球化布局资讯

瑞辅达医疗完成数千万元B轮融资,加速国产辅助生殖技术创新与全球化布局

由中金资本管理的基金领投,连云港经济技术开发区产业基金跟投

2025-06-12 16:16

因诺惟康完成数千万元A+轮融资,深耕基因递送技术临床转化与平台创新资讯

因诺惟康完成数千万元A+轮融资,深耕基因递送技术临床转化与平台创新

由天创资本领投,新投资人及老股东跟投

2025-06-12 15:51

CDE发布《先进治疗药品的范围、归类和释义(征求意见稿)》资讯

CDE发布《先进治疗药品的范围、归类和释义(征求意见稿)》

本文件所称先进治疗药品,是指符合药品相关管理规定,按照药品的路径进行研制、生产、经营、 使用和监管,且经体外操作生产并在人体内发挥预期功能的细胞治疗药品、基因治疗药...

2025-06-11 22:06

安图生物注销了一控股子公司资讯

安图生物注销了一控股子公司

近日,安图生物发布公告称,公司控股子公司安图莫比已完成注销手续,该公司是安图生物与Mobidiag Oy(以下简称Mobidiag)在6年前成立的合资企业,伴随着注销,如今正式落幕。

2025-06-11 15:25

因美纳发布2024年度企业社会责任报告,持续释放基因组学的力量资讯

因美纳发布2024年度企业社会责任报告,持续释放基因组学的力量

报告重点阐述了因美纳在推动精准医疗更加可及、赋能公众与社群、在业务中践行可持续发展、尽责运营和秉持诚信领导原则等方面的持续努力。

2025-06-11 14:21

破解传统疗法局限,华东医药脂溢性皮炎外用制剂国内III期临床获批资讯

破解传统疗法局限,华东医药脂溢性皮炎外用制剂国内III期临床获批

由中美华东申报的一项评价0 3%罗氟司特泡沫(ZORYVE®)在脂溢性皮炎患者中有效性和安全性的多中心、随机、双盲、赋形剂平行对照的III期临床试验申请获得批准。

2025-06-11 09:57

医药领域有哪些新探索,中办 国办关于深入推进深圳综合改革试点深化改革创新扩大开放的意见资讯

医药领域有哪些新探索,中办 国办关于深入推进深圳综合改革试点深化改革创新扩大开放的意见

深化药品医疗器械审评审批制度改革,提升口岸药品监管和检验检测能力。完善临床急需进口药品、医疗器械使用及监督管理制度,探索将国际新药临床真实世界数据用于进口药品注册上...

2025-06-10 22:13

药明生物启动建设成都微生物商业化生产基地 达成多项商业化生产合作资讯

药明生物启动建设成都微生物商业化生产基地 达成多项商业化生产合作

药明生物在成都温江区正式启动建设微生物商业化生产基地。

2025-06-10 14:29

默克治疗腱鞘巨细胞瘤的药物匹米替尼上市许可申请获受理资讯

默克治疗腱鞘巨细胞瘤的药物匹米替尼上市许可申请获受理

基于III期MANEUVER研究的阳性数据,这是Pimicotinib这一潜在“同类最优”TGCT治疗药物的全球首个申报

2025-06-10 14:25