说说华大基因的数据版图

医疗器械 来源:动脉网 作者:周梦亚
2017
04/25
10:40
动脉网
作者:周梦亚
医疗器械

作为华大基因的青年科学家,金鑫曾参与了一系列重大科研项目攻坚,包括国际千人基因组计划、中丹糖尿病基因组计划、人类泛基因组图谱计划、高原基因组计划,及自闭症基因组计划等。早在2009年,金鑫就以在校生的身份在《Nature》子刊《Nature Biotechnology》发表《构建人类泛基因组序列图谱》,并首次提出了“人类泛基因组”概念。

想到这似乎又是一次与天才的对话,记者一开始颇感紧张。而随后接近一个小时的采访中,逻辑怪、一针见血的观点、谈话间又容易亲近,这样的金鑫显得非常有趣。随和又严谨,两个矛盾纠结的词放在他身上却也没什么违和感。

数据分析:云上与本地多维布局

2015年,华大基因基因组数据分析云计算平台BGI Online国际版正式在AWS上线,随后于2016年在阿里云上线了国内版。作为负责人,金鑫见证了BGI Online的建设工作。其实早在2011年华大基因就开始尝试云上的数据组学方案,但由于当时国内公有云的建设还不成熟,作为先行者,他们走了不少弯路。

2014年开始,云技术领域有了很大的进步。阿里云,华为云这样的IaaS服务商快速崛起,“华大领导层觉得,这个事情可以干了。”金鑫回忆。

数据分析涉及到基因数据的降维过程,将原始数据降维到比较高质量的突变列表数据。传统方案中,是基于大型计算设备和存储设备来进行数据计算和降维。当数据量增加到现有构架不能满足计算需求,那企业就需要再次购买设备。这里面就涉及到两个问题,一是小型企业是否能够承受设备购买的费用,二是设备购买是否能够跟得上数据增加的速度。

BGI Online则把降维和数据环节搬到了云上,并且在分析层面上给用户定制化和个性化体验。金鑫告诉记者,传统的数据分析需要在本地集群上部署,然后在本地通过命令行去安装和操作。而BGI Online则通过前端把所有集群都管理隐藏起来,对前端用户来说,只需要简单的鼠标操作就可以根据自身需求更新流程和启动分析。

“一方面是降低数据分析本身的门槛,另一方面是可以让用户使用的更加便捷。不需要购买大型设备,也不需要复杂的操作,点点鼠标就可以完成了。”金鑫告诉记者。

此外,多年来华大基因积累了来自制药、科研、临床和个人等多样且丰富的客户,对市场和客户的需求有比较深的理解,这些都成为BGI Online的特色和优势。

但随后,金鑫话锋一转:“云平台是解决了很多问题,但实际上没有一种解决方案是完美的。云上或者是本地的方向都有各自优势所在,华大基因在这些方向都会去布局。”

据金鑫透露,华大基因已在数十家国内最好的医院部署了本地化解决方案一体机。临床医院对外的网络接口和传输速度可能受到限制,中间环节涉及到的很多软件需要监管部门注册报批,因此云上的方案并不一定完全适用。一体机包含了测序数据分析和报告产出功能,可满足临床级别检测的本地检测和本地分析需求。

“对于一些临床医院来说,这是个不错的解决方案。”他表示。

数据、终端和组学研究,解读环节的3个问题

从数据流的角度来说,数据产出(测序)和数据分析环节受设备和技术的影响比较大,而解读环节则更多受到专业人员和标准管理体制的影响。

1、基础问题:数据库与管理标准

数据解读可以简单理解为基因基因组学的翻译过程:根据新样本的信息,去寻找类似的样本,同样的突变、同样的表型,在按照同样的路径去解读。因此,要想解读更加精确和快速,首先就需要强大且丰富的数据资源。

但在整个全球范围内,组学数据的流通都处于比较受限的状态。一方面,数据如何合理共享,如何保护好用户隐私,国内目前还没有非常好的标准制定出来。

这些标准涉及到多个层面,比如测序技术、测序试剂以及测序数据本身的标准。“从数据产出到生成报告,这里面涉及到多个环节,每个环节都需要有标准。”金鑫表示。他告诉记者,目前各家在各个环节的标准不一,每一个环节的标准都可能影响到最终的数据,如果仅仅是制定最终的共享标准,并不能发挥数据管理的全部意义。

华大基因已经申请了部分重要的标准制定工作,包括DNA取样、样本制备、测序过程等等。

另一方面则是数据库本身的问题,这些数据主要来源于临床,能否用于构建数据库、如何构建本身就是个问题。目前国内所使用的数据库都是欧美的公开数据库。虽然都是同一个物种,现代人,但不同人种在基因层面还是存在一定差异的,所以一个中国人群的数据库是非常核心的。

尽管多家比较大型的基因公司都已经在进行数据库的构建工作。但放眼看欧美比较成功的数据库,其实大部分除了公司导向积累的数据外,更多是通过政府和科研机构共享开放出来的。这一类项目通常有国家专门拨给的科研经费,共享和管理机制也比较健全。

在反观目前国内现状,尽管这类大型的科研项目已经在逐步启动,但构建人群数据的科研项目投入尚没有欧美国家投入的多,数据共享的模式和管理机制也还在探索过程中。

这一方面,深圳国家基因库于2016年9月正式运营。国家基因库是由国家发改委、财政部和科技部等多个部门共同投资建设,目前主要交由华大基因运营管理。

简单来说,国家基因库是国家资源,数据资源公正公开,与公司层面建立的数据库将有本质区别。另外,国家基因库可以为数据存储和共享提供可靠基础,更容易把资源整理集结起来,再共享出去为更多人所用。

2、终端问题:临床咨询空缺

“但仅仅是这些依然是不够的。”金鑫告诉记者:“临床环节的基因数据解读不仅仅需要科研人员,其实跟临床专家也密不可分。”

在临床环节,除了数据解读之外更重要的其实是如何将结果解释给患者,让患者能够听明白。这一环节涉及到一个重要的环节——遗传咨询。

在欧美国家,遗传咨询早已成为专门的职业,管理机制也相对成熟——必须具有医学硕士或博士学位、专攻于遗传学理论和临床的执业医师,还要在经过两年的学习和实习才能取得资质,而国内尚未设立专门的学位。

2013年,复旦大学生命科学学院开展了一场遗传咨询培训,这应该是我国最早的关于遗传咨询的培训。华大基因于2011年开始着手自身遗传咨询团队的建设,2015年首次进行了对外的遗传咨询师培训。同年2月,中国遗传学会遗传咨询分会成立,标志着遗传咨询行业规范的初步建立。

3、根本问题:基因组学研究

“这些都是较浅层面的。”他稍微停顿了一秒,继续讲到:“从根源上讲,最重要的问题其实是我们对基因的理解程度还不够。”人类基因组有3x 109个碱基,我们真正理解的不到2%。此外,基因组的调控机制并不仅仅停留在二维层面,还有三维层面的空间结构和相互作用的影响。也就是说,并不能把基因简单理解为由“A、T、G、C”随机排列的字符串,不同的空间结构、甲基化、蛋白修饰都会影响到基因的最终表达。

“行业标准和数据库这些,通过投入人力物力和财力其实都是可以办到的,但基因结构的理解是必须下硬功夫的。”金鑫表示:“如果这个层面上没有突破的话,那我们就只能在原有已知范围内做有限的事情。”

成本降低是反向压力

“除了这些,上游测序的高成本其实也为目前的数据解读增加了难度。”这样的观点让记者很惊讶。

随后他解释道:“前面我们讲到数据解读的一个难点是因为目前积累不够。为什么积累不够呢——更多其实是因为目前数据产出的成本偏高,还不能让全部人接受。”

尽管目前全基因组的测序成本已经压到了1000美金以下,但对于大部分中低收入人群来说依然难以承受。让测序成本降低本身其实也是在加速数据积累,尽管一开始会造成数据处理环节的压力,但最终终会寻找到一个好的解决方案去应对这样的压力。这些数据又将帮助行业对基因数据有更深层次的理解,反过来促进数据分析和解读,最终形成良性循环。

因此,数据大量产出对于数据解读而言其实是一个反向压力。

2013年,华大基因收购CG后正式进军上游市场。如今,华大最新的测序仪已将个人全基因组测序成本降到了低于600美金。

“在这个基础上我们还将继续把成本降到更低,更多的人能够用得起。”金鑫表示:“同时华大基因也在降低数据处理环节的成本,在BGI Online上已经实现了在5-10小时完成人类全基因组标准分析,并将分析成本降低到了100人民币内。”

从产出到解读,华大基因布局全产业链

在数据分析环节,除了BGI Online平台,华大基因已具有一系列具有自主知识产权的分析软件,如SOAPdenovo、SOAPsnp、SOAPtrans、 SOAPfuse 等。

目前,华大基因已经开展了多项前瞻性试验,在1.5个小时内完成全基因组数据分析,同时通过硬件加速的方式在20分钟以内完成数据计算。“这些都是在降低应用方向上的成本”金鑫告诉记者。

华大基因数据版图

在数据解读环节,一方面,关于中国人群的数据库正在依托国家基因库构建,行业标准制定工作也在推进,在这些基础上华大基因也在开展一些前瞻性的探索工作。比如尝试通过人工智能进一步提高解读的自动化。

从最上游的测序仪、相关试剂,到中游的相关分析平台、一体机,再到解读工具和遗传分析团队。在金鑫的描述中,华大基因在数据处理环节的布局可谓无处不在,是国内为数不多的全产业链布局团队。“重要环节我们都是有投重金的。我们希望能把行业活化能降低,让更多的人才进到这个行业里来,做自己擅长的部分。”

写在后面

以往,华大基因给记者的印象是一个神秘的基因帝国、中国基因行业的黄埔军校。而通过与金鑫的交谈,记者所认识到的华大基因,既有多年前倾其所有参与人类基因组计划的科研精神,又有面对上游压制反向收购的霸气。

但更多看到的,是这个集产、学、研于一身的企业在基因领域的多年耕耘,从无到有,从有到强的探索。如今,中国基因测序达到国际水平,测序企业遍地开花,华大基因功不可没。尽管如此,基因组学还有很多未知的数据价值,华大基因仍旧走在时代前列,继续探索和挖掘。

医谷链

华大基因董事长汪建:将用基因技术首先在河南消灭聋哑盲傻

来源:动脉网   作者:周梦亚

为你推荐

黄果任国家药品监督管理局局长资讯

黄果任国家药品监督管理局局长

任命黄果为国家药品监督管理局局长,免去李利的国家药品监督管理局局长职务。

2026-04-29 21:46

微滔生物完成超 5000 万美元 A 轮、A + 轮融资,专注体内 CAR-T 细胞疗法赛道资讯

微滔生物完成超 5000 万美元 A 轮、A + 轮融资,专注体内 CAR-T 细胞疗法赛道

本轮融资由正心谷资本与德诚资本分别领投,OrbiMed(奥博资本)、汉康资本、卫材创新风投基金、建发新兴投资等知名机构跟投,老股东启明创投、顺禧资本、杏泽资本持续加码

2026-04-29 13:21

“A to H 18A第一股”诞生!迈威生物正式登陆香港联交所主板资讯

“A to H 18A第一股”诞生!迈威生物正式登陆香港联交所主板

2026年4月28日,迈威(上海)生物科技股份有限公司(以下简称“迈威生物”,A股代码:688062 SH,港股代码:02493 HK)在香港联合交易所主板正式挂牌上市,成为首家“A to H”的18A上市公司。

2026-04-28 19:22

全面接轨国际,药物临床试验质量管理规范再升级资讯

全面接轨国际,药物临床试验质量管理规范再升级

根据国家药监局发布的2025年第125号公告,自2026年3月31日后实施的药物临床试验,均适用《E6(R3):药物临床试验质量管理规范技术指导原则》(下称 ICH E6(R3))。

2026-04-28 19:13

百济神州引入PD-1/CTLA-4/VEGF-A三抗资讯

百济神州引入PD-1/CTLA-4/VEGF-A三抗

4月28日,百济神州发布公告称,2026年4 月 24 日,百济神州有限公司的全资子公司广州百济神州生物制药有限公司与华辉安健(北京)生物科技有限公司签订了一份《独家选择权、...

2026-04-28 09:49

希润医疗完成数千万元融资,打造全链条脑机接口康复产品线资讯

希润医疗完成数千万元融资,打造全链条脑机接口康复产品线

由无锡梁溪科创产业基金独家投资。

2026-04-27 13:19

一家环保上市企业要10亿元收购一家CRO公司资讯

一家环保上市企业要10亿元收购一家CRO公司

4月26日晚间,创业板上市公司中赋科技发布公告,计划筹资收购军科正源(北京)药物研究有限责任公司。

2026-04-27 11:02

司美格鲁肽专利已经到期,为什么国内还没有产品获批上市资讯

司美格鲁肽专利已经到期,为什么国内还没有产品获批上市

2026年3月底,司美格鲁肽核心化合物专利在中国正式到期。

2026-04-26 18:56

药品附条件批准上市申请审评审批工作程序资讯

药品附条件批准上市申请审评审批工作程序

附条件批准时,每个附条件批准的适应症单独设置药品注册证书有效期,原则上,在确证性研究完成时限的基础上增加一年。确证性研究完成时限由药审中心在审评中与申请人沟通交流后...

2026-04-26 10:58

CDE:抗体偶联药物首次申报临床试验药学资料撰写指导原则资讯

CDE:抗体偶联药物首次申报临床试验药学资料撰写指导原则

本指导原则基于 ICH M4Q( R1)总体框架, 格式体例与之保持一致, 在其框架下结合抗体偶联药物的药学研究特点,细化了 IND 申报药学资料的撰写要求,旨在为该类药物 IN...

2026-04-25 21:39

蚂蚁健康向医院开放“智慧医疗AI一体化方案” 支持智能体、云陪诊、本地化模型部署资讯

蚂蚁健康向医院开放“智慧医疗AI一体化方案” 支持智能体、云陪诊、本地化模型部署

4月25日,在2026中国医院信息网络大会(CHIMA 2026)上,蚂蚁健康面向全国医院及医疗机构推出“智慧医疗AI一体化方案”。

2026-04-25 20:09

美敦力 5.5 亿美元收购 Scientia Vascular,加码神经血管赛道布局资讯

美敦力 5.5 亿美元收购 Scientia Vascular,加码神经血管赛道布局

Scientia Vascular 是专注于神经血管创新器械研发的新兴企业,核心产品管线聚焦颅内血管病变介入治疗领域

2026-04-25 15:50

聚焦预防接种全龄升级,多方合力开展“成人全周期免疫促进暨带状疱疹公益科普”资讯

聚焦预防接种全龄升级,多方合力开展“成人全周期免疫促进暨带状疱疹公益科普”

4月25日,国家疾病预防控制局在上海举办主题宣传活动,呼吁“预防接种,苗助健康,全民行动”。

2026-04-25 15:41

超亿元 A 轮融资!奥明星程以 AI4S 定义下一代生物智能基础设施资讯

超亿元 A 轮融资!奥明星程以 AI4S 定义下一代生物智能基础设施

由深创投与复星医药(复健资本)联合领投,太平股权、广东中医药大健康基金、杭实集团等多家头部投资机构、产业链龙头企业及多地国资跟投。

2026-04-24 18:28

Cytiva ÄKTA与Biacore系列产品实现本地生产, 以“桐庐样本”赋能生物医药“加速度”资讯

Cytiva ÄKTA与Biacore系列产品实现本地生产, 以“桐庐样本”赋能生物医药“加速度”

依托桐庐生产基地,Cytiva持续提升本土供应能力,以更短的交付周期与定制化支持,精准匹配中国研发节奏,深度践行“在中国,为中国”承诺

2026-04-24 18:13

全球首个治疗遗传性耳聋基因疗法获批资讯

全球首个治疗遗传性耳聋基因疗法获批

4 月 23 日,再生元宣布,美国 FDA 已经加速批准其在研基因疗法Otarmeni(lunsotogene parvec-cwha)上市,该药品成为首个也是目前唯一获批用于治疗遗传性听力损失的基因疗法。

2026-04-24 18:01

CDE:治疗用重组蛋白药物首次申报临床试验药学资料撰写指导原则资讯

CDE:治疗用重组蛋白药物首次申报临床试验药学资料撰写指导原则

本指导原则基于 ICH M4Q( R1)总体框架, 格式体例与之保持一致, 在其框架下结合治疗用重组蛋白药物的药学研究特点,细化了 IND 申报药学资料的撰写要求,旨在为该类药...

2026-04-24 12:44

甘李药业GLP-1R博凡格鲁肽Ⅲ期临床试验完成首例受试者给药资讯

甘李药业GLP-1R博凡格鲁肽Ⅲ期临床试验完成首例受试者给药

4月23日,甘李药业发布公告,博凡格鲁肽(研发代号:GZR18)注射液正在中国开展的适应症成人肥胖患者的中度至重度阻塞性睡眠呼吸暂停(OSA)的Ⅲ期临床试验,于近日成功完成首例...

2026-04-24 10:25

天鹜科技发布MatwingsVenus™,给AI一个共享实验室资讯

天鹜科技发布MatwingsVenus™,给AI一个共享实验室

天鹜科技是一家 AI 驱动的全栈式蛋白质研发平台公司

2026-04-24 09:12

应世生物再冲港交所 IPO:手握国内唯一 III 期 FAK 抑制剂,专攻肿瘤耐药后市场资讯

应世生物再冲港交所 IPO:手握国内唯一 III 期 FAK 抑制剂,专攻肿瘤耐药后市场

公司战略性聚焦黏着斑激酶(FAK)及整合素通路,这些靶点对肿瘤细胞的顽强生存能力至关重要。

2026-04-23 22:00