美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。
基因组学的科研人员正越来越多地使用云计算服务,谷歌的云计算服务就是其中之一
今年三月基因组学领域的科研工作者们迎来了一件大喜事:美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。
云计算服务通过按需付费模式提供海量的存储和计算资源。使用云服务要通过互联网,而且计算资源是共享的,这就引起了很多科研资助机构的疑虑,他们担心云计算的使用会泄露样本提供者的隐私。NIH取消不准上传到云端的规定是因为基因组学研究中正面临着现实问题:如何获取数据库中的大量数据。这已经阻碍了科研人员的工作,尤其是当研究工作涉及到现有的数据信息时。
为了充分利用云计算技术所提供的便利,我们敦促NIH和其他科研资助机构在常用的云平台中免费提供基因组数据。这样全球数以千计的科研人员就不用浪费自己的时间和金钱将数据转移到自己熟悉的云平台,只要从这个统一的数据平台进行存储和分析就可以了。
大数据
随着基因组排序技术的提高,大型基因数据库中的信息都是以PB计的(1PB=10^15字节)。比如国际癌症基因组联盟ICGC的数据库中不到五年时间就积累了从17个国家收集而来的超过2PB数据,这相当于50万张DVD的容量。
按一般大学的网速来算,将这些数据转移到研究人员自己的内部网络中需要花超过15个月。先不说处理,就单单存储这些数据的硬件就要花大概100万美元。
云计算为我们提供了计算资源上的弹性,研究人员可以需要多少计算资源就有多少计算资源。分析完成之后只需要为计算分析的一小段时间付费。科研人员之间也可以更好地进行分工合作,在虚拟机上就能轻松地分享数据和计算方法。以前要花上几个月的基因组数据分析现在可能只需要几天或者几周。
时至今日,云服务的安全性已经胜过了研究机构自己的数据中心。提供云服务的既有亚马逊、谷歌和微软这样的商业企业,也有专注于基因组研究的小型公司,比如加利福尼亚的Annai Systems和英国剑桥郡的欧洲生物信息研究所。这些提供商采取加密和防火墙或密保卡等方式来控制数据的使用权,并为数据所有者提供监测数据使用的工具。
一些人类基因组学的主要资助机构还是对云计算持谨慎态度。如一些欧洲的资助机构就建议将基因组数据控制在自己的管辖范围内以遵守欧洲的隐私法律。但我们预计,基于云计算的经济性、灵活性、可靠性和安全性,未来几个月肯定会有向云平台的大规模迁移潮。NIH的决定无疑会加速这一过程,我们在此对NIH表示感谢。
现在让我们来看看如何在云平台用最少的花销达到最高的效率。
访问控制
科研人员想要从dbGAP等数据库中取得人类基因组数据,必须要经过数据访问委员会的批准。现在如果有不同的科研人员想要在云平台上使用同一数据集,他们各自必须得到相应的数据访问委员会批准。然后要将数据复制到自己的云平台才能开始工作。
所有这些科研人员都必须等着数据复制,也必须向自己使用的云平台支付费用。如果100组科研人员都这么做,那么这个过程很明显浪费了科研人员很多的时间和金钱。就算是可以随便把数据复制到自己的云平台,大多数科研人员恐怕也负担不起这一过程需要的时间和花销。
有一个更好的方式可以解决这个问题:相关的资助机构可以要求将主要的基因组数据集上传到常用的云平台中并支付存储的费用,这样所有数据只需要复制一次而且科研人员自己只需要支付进行分析时的一点点开销。
现在不少云计算提供商为科研数据提供极低价格的存储甚至完全免费以鼓励科研人员使用自家的云服务。亚马逊AWS为千人基因组计划提供免费存储(有超过200TB数据),Annai Systems也为一部分ICGC数据集提供免费存储。
假设迁移到云平台之后现在的数据库提供者和数据访问委员会的设置保持不变的话,在基因组云计算的范围内甚至可能诞生一个市场。比如提供了有价值数据的基因生物学家可以获得云计算平台的分析时间作为奖励。计算机科学家如果提供了可以提高分析效率的程序,也可以在别人运行它的程序时得到一定的回报。
经过一段时间这便会形成一个良性循环。这些大的数据集融合在一起可以令科研人员更快发现基因与疾病之间的联系,这反过来会鼓励更多人分享数据集或开发更强大的软件。
这种方式也有一定的风险。如果把所有数据都集中到同一个云计算平台,此云计算平台就会因为垄断而提价,而这些成本就会转嫁到科研经费中。为了避免这种情况发生,应该将重要的数据集放在多个云平台上。这也可以解决之前提到的欧洲资助机构的担忧,只要将欧洲所贡献的数据限制在欧洲的云服务提供商即可。
基因组学标准
当然要达到我们最终的目的还需要很多技术和法律方面的努力。比如现在囊性纤维变性研究人员完全不能通过软件在dbGap数据库中搜索病患的基因序列。通过系统性地进行数据标记,例如样本的来源将有助于解决这个问题。从2001年开始,期刊发行商们达成了一个共识:只接受符合MIAME标准的RNA微阵列研究。对于基因组数据,我们也需要一个类似MIAME的标准。
保护云平台之上的敏感数据需要可靠的协议以及赋予和解除权限的手段。短期内各个项目的数据访问委员会仍应对数据的访问进行把关,但最终保留几个可以掌控云端所有数据库的访问委员会将会是更好的方案。
在法律层面则必须划分清楚资助机构、数据监管部门、云服务提供商以及使用基因组数据的科研人员各自的角色和责任。比如说有人在微博上发基因组的信息,这几个角色中谁应该负责任?为了解决这一问题,全球基因组学与健康联盟已经制定了一个共享基因组及健康相关数据的责任框架。
与此同时,NIH以及其他资助机构在借基因组学的点子在讨论其他公共平台的可能性。NIH下属的国立癌症研究所已经开展了几个在云平台进行基因组学数据的共享和分析的实验项目。
神经学和流行病学这样的学科与基因组学一样面临着数据方面的问题。如果能正确地使用云计算,不光基因组学,连这些学科的研究人员也将能够受益。
来源:CSDN
为你推荐
资讯 正式发布的“十五五”规划纲要中的“医药健康”
3月13日,《中华人民共和国国民经济和社会发展第十五个五年规划纲要》发布,明确了2026-2030年我国经济社会发展的战略方向,医谷网现将“医药健康”相关辑录如下。
2026-03-14 21:37
资讯 成人阻塞性睡眠呼吸暂停诊治指南(2025)发布会暨OSA个体化治疗研讨会在京圆满召开
2026年3月13—14日,由《中华医学杂志》社有限责任公司、《中华结核和呼吸杂志》编委会主办的“成人阻塞性睡眠呼吸暂停诊治指南(2025)发布会暨OSA个体化治疗研讨会”在北京圆满召开。
2026-03-14 18:21
资讯 全球首个侵入式脑机接口医疗器械获批上市
今日,国家药监局发布消息,国家药监局批准了博睿康医疗科技(上海)有限公司植入式脑机接口手部运动功能代偿系统创新产品注册申请,实现脑机接口医疗器械全球首发上市,标志着...
2026-03-13 17:39
资讯 康龙化成与礼来达成口服GLP-1小分子药Orforglipron生产合作协议
3月11日晚间,康龙化成官方微信发布消息,康龙化成与礼来公司共同宣布,达成关于首个申报注册的口服小分子GLP-1受体激动剂Orforglipron的生产合作协议。
2026-03-12 21:56
资讯 美国 FDA 批准颂狄多(氘可来昔替尼)用于治疗活动性银屑病关节炎成人患者
颂狄多是一种口服选择性酪氨酸激酶 2(TYK2)抑制剂,也是首个获批用于 PsA治疗 的 TYK2 抑制剂
2026-03-12 16:53
资讯 百时美施贵宝宣布口服药物mezigdomide治疗复发或难治性多发性骨髓瘤Ⅲ期研究SUCCESSOR-2的积极结果
这是mezigdomide首项获得积极结果的Ⅲ期研究,也是百时美施贵宝CELMoD项目第二项获得积极成果的Ⅲ期研究
2026-03-11 21:15
资讯 备思复联合帕博利珠单抗使顺铂耐受的肌层浸润性膀胱癌患者的复发或死亡风险降低近 50%
在 III 期临床研究 EV-304 中,该联合疗法显著改善患者总生存期与病理完全缓解率,超半数患者在手术时未检测到病灶
2026-03-11 13:17
资讯 降 HbA1c 超 2.5%且多重获益,华东医药国产降糖新药HDM1005降糖2期数据揭晓
本次研究为一项在饮食和运动或二甲双胍治疗后血糖控制不佳的2型糖尿病受试者中评价HDM1005注射液有效性和安全性的多中心、随机、盲法、平行、安慰剂和阳性对照的Ⅱ期临床研究
2026-03-10 19:38
资讯 艾凯生物完成A3轮超亿元融资,加速AI驱动iPSC细胞治疗与类器官平台升级
本轮融资由知壹投资与沃杰资本联合领投,联新资本持续追加投资,资金将重点用于推进AI驱动的iPSC细胞治疗产品临床转化,加速完善iPSC细胞治疗与类器官两大核心技术平台布局。
2026-03-10 18:22
资讯 中科搏锐斩获数千万B轮融资,推动脑机接口全产业链产业化落地
本轮融资由国内知名投资机构三泽创投独家投资,凯乘资本担任长期独家财务顾问,所筹资金将全力支撑公司深化脑机接口全产业链布局,加速尖端技术的临床转化与产业化落地。
2026-03-10 18:03
资讯 入选不足4月,和黄医药申请将达唯珂移出首版商保创新药目录
国家医疗保障局办公室今日发布通知,自2026年3月9日起,撤销氢溴酸他泽司他片(商品名:达唯珂)在全国各省级医药采购平台挂网资格,并根据企业申请,将该药品移出《商业健康保...
2026-03-09 22:09










