美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。
基因组学的科研人员正越来越多地使用云计算服务,谷歌的云计算服务就是其中之一
今年三月基因组学领域的科研工作者们迎来了一件大喜事:美国国立卫生研究院NIH取消了不准将其dbGap数据库中的基因组信息上传到云端的规定。这一规定设立于2007年,它的取消无疑为科研工作者存储和分析基因组信息提供了便利。
云计算服务通过按需付费模式提供海量的存储和计算资源。使用云服务要通过互联网,而且计算资源是共享的,这就引起了很多科研资助机构的疑虑,他们担心云计算的使用会泄露样本提供者的隐私。NIH取消不准上传到云端的规定是因为基因组学研究中正面临着现实问题:如何获取数据库中的大量数据。这已经阻碍了科研人员的工作,尤其是当研究工作涉及到现有的数据信息时。
为了充分利用云计算技术所提供的便利,我们敦促NIH和其他科研资助机构在常用的云平台中免费提供基因组数据。这样全球数以千计的科研人员就不用浪费自己的时间和金钱将数据转移到自己熟悉的云平台,只要从这个统一的数据平台进行存储和分析就可以了。
大数据
随着基因组排序技术的提高,大型基因数据库中的信息都是以PB计的(1PB=10^15字节)。比如国际癌症基因组联盟ICGC的数据库中不到五年时间就积累了从17个国家收集而来的超过2PB数据,这相当于50万张DVD的容量。
按一般大学的网速来算,将这些数据转移到研究人员自己的内部网络中需要花超过15个月。先不说处理,就单单存储这些数据的硬件就要花大概100万美元。
云计算为我们提供了计算资源上的弹性,研究人员可以需要多少计算资源就有多少计算资源。分析完成之后只需要为计算分析的一小段时间付费。科研人员之间也可以更好地进行分工合作,在虚拟机上就能轻松地分享数据和计算方法。以前要花上几个月的基因组数据分析现在可能只需要几天或者几周。
时至今日,云服务的安全性已经胜过了研究机构自己的数据中心。提供云服务的既有亚马逊、谷歌和微软这样的商业企业,也有专注于基因组研究的小型公司,比如加利福尼亚的Annai Systems和英国剑桥郡的欧洲生物信息研究所。这些提供商采取加密和防火墙或密保卡等方式来控制数据的使用权,并为数据所有者提供监测数据使用的工具。
一些人类基因组学的主要资助机构还是对云计算持谨慎态度。如一些欧洲的资助机构就建议将基因组数据控制在自己的管辖范围内以遵守欧洲的隐私法律。但我们预计,基于云计算的经济性、灵活性、可靠性和安全性,未来几个月肯定会有向云平台的大规模迁移潮。NIH的决定无疑会加速这一过程,我们在此对NIH表示感谢。
现在让我们来看看如何在云平台用最少的花销达到最高的效率。
访问控制
科研人员想要从dbGAP等数据库中取得人类基因组数据,必须要经过数据访问委员会的批准。现在如果有不同的科研人员想要在云平台上使用同一数据集,他们各自必须得到相应的数据访问委员会批准。然后要将数据复制到自己的云平台才能开始工作。
所有这些科研人员都必须等着数据复制,也必须向自己使用的云平台支付费用。如果100组科研人员都这么做,那么这个过程很明显浪费了科研人员很多的时间和金钱。就算是可以随便把数据复制到自己的云平台,大多数科研人员恐怕也负担不起这一过程需要的时间和花销。
有一个更好的方式可以解决这个问题:相关的资助机构可以要求将主要的基因组数据集上传到常用的云平台中并支付存储的费用,这样所有数据只需要复制一次而且科研人员自己只需要支付进行分析时的一点点开销。
现在不少云计算提供商为科研数据提供极低价格的存储甚至完全免费以鼓励科研人员使用自家的云服务。亚马逊AWS为千人基因组计划提供免费存储(有超过200TB数据),Annai Systems也为一部分ICGC数据集提供免费存储。
假设迁移到云平台之后现在的数据库提供者和数据访问委员会的设置保持不变的话,在基因组云计算的范围内甚至可能诞生一个市场。比如提供了有价值数据的基因生物学家可以获得云计算平台的分析时间作为奖励。计算机科学家如果提供了可以提高分析效率的程序,也可以在别人运行它的程序时得到一定的回报。
经过一段时间这便会形成一个良性循环。这些大的数据集融合在一起可以令科研人员更快发现基因与疾病之间的联系,这反过来会鼓励更多人分享数据集或开发更强大的软件。
这种方式也有一定的风险。如果把所有数据都集中到同一个云计算平台,此云计算平台就会因为垄断而提价,而这些成本就会转嫁到科研经费中。为了避免这种情况发生,应该将重要的数据集放在多个云平台上。这也可以解决之前提到的欧洲资助机构的担忧,只要将欧洲所贡献的数据限制在欧洲的云服务提供商即可。
基因组学标准
当然要达到我们最终的目的还需要很多技术和法律方面的努力。比如现在囊性纤维变性研究人员完全不能通过软件在dbGap数据库中搜索病患的基因序列。通过系统性地进行数据标记,例如样本的来源将有助于解决这个问题。从2001年开始,期刊发行商们达成了一个共识:只接受符合MIAME标准的RNA微阵列研究。对于基因组数据,我们也需要一个类似MIAME的标准。
保护云平台之上的敏感数据需要可靠的协议以及赋予和解除权限的手段。短期内各个项目的数据访问委员会仍应对数据的访问进行把关,但最终保留几个可以掌控云端所有数据库的访问委员会将会是更好的方案。
在法律层面则必须划分清楚资助机构、数据监管部门、云服务提供商以及使用基因组数据的科研人员各自的角色和责任。比如说有人在微博上发基因组的信息,这几个角色中谁应该负责任?为了解决这一问题,全球基因组学与健康联盟已经制定了一个共享基因组及健康相关数据的责任框架。
与此同时,NIH以及其他资助机构在借基因组学的点子在讨论其他公共平台的可能性。NIH下属的国立癌症研究所已经开展了几个在云平台进行基因组学数据的共享和分析的实验项目。
神经学和流行病学这样的学科与基因组学一样面临着数据方面的问题。如果能正确地使用云计算,不光基因组学,连这些学科的研究人员也将能够受益。
来源:CSDN
为你推荐
资讯 诺和诺德“诺和关怀”发布鸿蒙版APP与减重专属版
11月7日,第八届中国国际进口博览会期间,诺和诺德宣布2023年组建的“健康生态联盟”扩容升级,将与更多数字生态圈伙伴在生态融合、数据互联、技术共创方面展开深度合作。
2025-11-07 23:16
资讯 凯西罕见病事业部首秀进博会
凯西集团是一家以研发为基石、拥有九十年历史的意大利国际制药集团,覆盖呼吸道健康、罕见疾病和专科治疗三大领域,其专利数量在意大利药企中排名首位,公司每年投入超20%营收至...
2025-11-07 22:58
资讯 卒中知晓周于进博会启幕,Pipeline™持续助力中国脑血管疾病治疗创新
美敦力神经介入部门以“深耕廿载·向美而行”为主题举办专场活动,并正式启动“卒中知晓周”倡导行动。
2025-11-07 22:48
资讯 诺华公司携手腾讯新闻《超级问诊》亮相进博会,多方合力破解心血管慢病“管理难题”
在第八届中国国际进口博览会现场,腾讯新闻联合诺华公司共同举办了《超级问诊》进博会特别场
2025-11-07 18:44
资讯 美敦力CathWorks实验室开放日丨CathWorks FFRangio系统正式发布!开启心血管诊疗智能新时代
2025年11月6日,第八届中国国际进口博览会期间,美敦力CathWorks实验室开放日重磅启幕
2025-11-07 18:08
资讯 创新技术赋能高血压防治——美敦力进博会圆桌共议难治性高血压管理新路径
来自临床、公共卫生、政策研究及行业领域的多位专家汇聚一堂,共同探讨创新疗法RDN(肾动脉交感神经消融术)在中国高血压防治体系中的临床应用、卫生经济学价值及未来发展方向。
2025-11-07 17:43
资讯 依视路星趣控全“星”解决方案闪耀进博会舞台
第八届中国国际进口博览会期间,作为依视路陆逊梯卡旗下领先的儿童青少年近视管理品牌,“进博宝宝”依视路星趣控携全“星”解决方案重磅亮相
2025-11-07 12:42
资讯 可充电、可感知闭环脑起搏器Percept™ RC亮相第八届进博会,应用脑机接口技术造福帕金森病患者
作为全球脑起搏器领域的重磅产品,美敦力可充电、可感知闭环脑起搏器Percept™ RC亮相第八届中国国际进口博览会。
2025-11-07 11:24
资讯 葛兰素史克中国投身肿瘤赛道,从多发性骨髓瘤破题应对老龄化健康挑战
权威专家、北京中康联公益基金会代表等领域内各方济济一堂,就MM患者治疗现状与创新诊疗展望等话题进行了深入交流。
2025-11-07 11:18
资讯 罗氏制药连续八年参与进博会,加速向全疾病领域综合领航者跨越
2025-11-07 11:02
资讯 首次亮相进博,索诺瓦全链条创新方案助力听力健康行业高质量发展
现场,索诺瓦展示了全链条创新听力健康解决方案,其中包括峰力AI人工智能全能系列助听器亚洲首展,AB核磁共振兼容的人工耳蜗技术等。
2025-11-06 22:24
资讯 百济神州2025年前三季度营收超275亿元,已超去年全年营收
第三季度,百济神州单季度营收突破百亿大关,达到100 77亿元,同比增长41 1%;产品收入延续高速放量态势,实现99 54亿元,同比增长40 6%。
2025-11-06 20:42
资讯 携手打造健康新生态,聚焦发育性癫痫性脑病的科学突破与全方位支持
第八届中国国际进口博览会(下称“进博会”)期间,由寇德罕见病中心与灵北共同发起的“构建DEE健康新生态:聚焦发育性癫痫性脑病的科学突破与全方位支持”圆桌论坛成功举办。
2025-11-06 20:34








