在生命科学的前沿探索中,我们早已能高效“读出”生命的序列,但如何从30亿碱基对中“读懂”生命奥秘,长期以来都是一项巨大挑战,如同在没有地图的荒野中寻找路径。
10月23日,在第二十届国际基因组学大会(ICG-20)上,华大生命科学研究院与之江实验室联合发布了全球首个百亿参数人类基因组通用基础模型——Genos。这一针对人类基因组深度优化的基因组基础模型,可支持高达百万碱基对的超长上下文分析,并实现单碱基分辨率的精准识别。
Genos的推出标志着基因组研究从“读出”碱基序列迈向“读懂”生命底层逻辑的一次关键转折,有望为临床疾病诊断、个人基因组解读及前沿科学研究带来突破性变革。
据悉,Genos的相关成果已发表于国际学术期刊GigaScience。
文章截图(https://doi.org/10.1093/gigascience/giaf132)
广度、深度、效率兼具,一款真正具有生产力的基因组大模型
要读懂“生命之书”,首先需要一本完整的“字典”。
基因组学领域内的现有模型大多基于一到两个参考基因组进行训练,难以捕捉人类丰富的遗传多样性。而Genos则系统整合了人类泛基因组参考联盟(HPRC)、人类基因组结构变异图谱计划(HGSVC)等多个权威公开资源,首次汇聚了全球范围内636个“端粒到端粒”(T2T)级别的高质量人类基因组作为训练数据。这些数据覆盖了全球不同人群,旨在从源头减少数据偏见,更全面地代表人类遗传多样性。
基因组的语言极其复杂,一个微小的单碱基突变,其影响可能由百万碱基之外的“遥远”调控元件决定。这要求模型既要有“显微镜”般的单碱基精度,又要有“广角镜”般的百万级超长上下文理解能力。
如同阅读一部鸿篇巨著,既能一字不差地记住细节,又能洞悉全局的宏大叙事。Genos通过混合专家(Mixture-of-Experts, MoE)架构,巧妙地解决了这一挑战。MoE架构如同一个拥有众多顶尖专家的智慧团队,面对任务时,总能精准调度最相关的几位专家协同处理,而不是调动所有人全部待命。这一“按需激活”的机制,让Genos在拥有百亿级参数的庞大知识总量的同时,推理成本和资源消耗却远低于同等规模的模型,真正实现了“既强大,又好用”。
为了全面验证模型的性能,研发团队进行了一系列测试。在基因组元件识别、远程调控预测、突变致病性预测等经典评测任务里,Genos在超过一半的任务里比所有现有模型都表现更好,而且长序列评测任务里,如突变热点识别和族群分类上,Genos的表现远超同类模型,展现了其强大的上下文分析能力,有效破译基因组中的“暗物质”。
更重要的是,Genos在直接面向临床应用的致病性突变解读任务中,实现了92%的准确性,当结合021科学基础模型后,准确率更是高达98.3%,为临床诊断提供了全新的高效工具。综合多项评测结果,Genos在各项核心任务中的表现均全面超越了现有最佳水平(SOTA),证明了其卓越且全面的能力。
共有、共为、共享,让前沿科技触手可及
一个模型无论多么强大,如果不能被方便地部署和使用,其价值便大打折扣。目前,全球基因组学领域尚无一款能够被开发者和研究者直接部署、用于下游应用的百亿级人类基因组基础大模型。而Genos的发布,则填补了这一空白。它是一个可以走向临床、走向个人、走向每一个实验室的“实践先锋”,为无限的下游应用创新提供了坚实的地基。
今年是人类基因组草图绘制完成25周年。“共有、共为、共享”,既是人类基因组计划的精神传承,也是Genos与生俱来的核心理念。
发布会上,华大生命科学研究院宣布,Genos模型将全面、彻底地开源开放,且同时提供12亿和100亿参数两个版本,满足不同应用场景的需求。目前,两个版本的模型权重、架构细节与完整训练流程,均已在GitHub、Hugging Face、魔搭等平台依据MIT开源协议公开发布,供全球开发者和科研人员自由使用。同时,在之江实验室的开放平台Zero2X也已发布。
另外,考虑到并非所有使用者都拥有强大的算力资源,该模型已被深度整合进DCS Cloud云平台。用户无需进行复杂的安装配置,即可一键调用Genos,平台为每个账户提供了高达10万次的免费推理服务,极大地降低了基因组智能分析的门槛。
目前,在科研领域,Genos模型通过与DCS cloud结合,能仅凭DNA序列“秒级”预测RNA表达谱,将过去数周甚至数月才能完成的生物信息分析流程极大提速。此外,Genos模型也已整合进生命科学数据库CNGBdb,可帮助用户精准预测细胞表达量,高效筛选和验证关键候选基因,大幅加速科研发现。
在临床应用领域,Genos模型与华大已发布的GeneT深度思考模型结合,能为遗传疾病诊断提供专家级的多模态解读。而在个人健康领域,目前Genos模型已整合进BGE平台,将赋能个人基因组报告解读,把复杂的生命代码翻译成每个人都能读懂的、个性化的健康“说明书”。
值得一提的是,Genos的诞生,源自一次大胆的跨界融合与人才培养实践。该模型的核心研发团队,来自华大生命科学研究院与之江实验室联合发起的“大模型种子班”。这个汇聚了生物信息专家与计算科学骨干的精英团队,依托“以问题导向实训、以任务驱动创新”的模式,正推动生命科学研究从“数据挖掘”迈向“智能涌现”的新纪元。也正是这种跨界碰撞,为Genos的颠覆性创新注入了最核心的动力。
此次Genos的发布,标志着一个新时代的开启:一个基因组智能分析的时代,一个人人都能读懂自己生命天书的时代,正加速到来。为持续推动模型迭代,华大生命科学研究院近期还联合国内外多家单位共同发起了“十万长读长大人群联盟(Long100K Genomes Consortium)”和“百亿细胞计划(10BC)”两项大科学计划。其中,“十万长读长大人群联盟”将依托最新的Cyclone长读长测序技术,完成10万人的“端粒到端粒”级别完整基因组测序,为基因组大模型提供高质量的训练数据。而“百亿细胞计划”则将依托Stereo-Cell超高通量细胞组学技术,完成百亿细胞测序,助力基因和细胞的融合大模型开发。从基因组到多组学,一个更强大的生命科学基础模型正在孕育之中。
为你推荐
资讯 百度智能云加码银发经济:大模型破解养老供需错配难题
当居家养老还停留在“人找服务”的传统模式时,以大模型与AI Agent为代表的智能技术,正在掀起一场全新变革,服务开始主动理解需求,并精准触达每一位老人。
2026-03-27 17:24
资讯 优赫得®序贯THP方案在华获批用于HER2阳性早期乳腺癌新辅助治疗,实现该适应症“全球首发”
此次获批使优赫得®迈向早期乳腺癌,成为首个且唯一*获批HER2阳性乳腺癌新辅助治疗的ADC疗法
2026-03-27 17:16
资讯 医疗服务价格项目立项指南解读辅导(第1期)
长期以来,医疗服务价格实行属地管理,由地方医药价格主管部门制定价格项目、确定价格水平,地区间价格项目数量、内涵、颗粒度差异较大,部分地区按操作流程、岗位分工等拆分价...
2026-03-27 11:21
资讯 社保“第六险”,长期护理险全国落地
3月25日,中共中央办公厅、国务院办公厅发布《关于加快建立长期护理保险制度的意见》,标志着这项被称作社保“第六险”的制度正式结束10年试点,迈向全国建制新阶段。
2026-03-26 18:09
资讯 国家药监局发布《药品现代物流规范化建设指导意见》,自发布之日起施行
本指导意见是对申请开办药品批发企业(以下简称批发企业)和接受委托储存运输药品业务的第三方药品现代物流企业(以下简称第三方物流企业),在药品现代物流设施设备等方面的基...
2026-03-26 10:14
资讯 华东医药独家商业化VC005片Ⅲ期临床顶线数据积极,抢占自免口服疗法新高地
华东医药战略合作方江苏威凯尔医药科技股份有限公司(简称“江苏威凯尔”)宣布,其自主研发的Ⅱ代高选择性JAK1抑制剂VC005片在口服治疗中重度特应性皮炎(AD)的Ⅲ期临床研究中...
2026-03-25 18:52
资讯 Cytiva携手上海临床研究中心与新叶生维, 加速先进细胞治疗临床应用转化与产业化发展
Cytiva与上海临床研究中心签署战略合作备忘录,共同设立先进细胞治疗技术临床应用示范平台,以产学研协同为牵引,带动区域产业升级。
2026-03-25 18:46
资讯 国家药监局批准两款创新医疗器械
近日,国家药品监督管理局批准了两款创新医疗器械上市。分别为阿迈特医疗器械(北京)股份有限公司二氧化碳造影压力注射套装创新产品注册申请和应脉医疗科技(上海)有限公司经...
2026-03-25 14:53
资讯 甘李药业博凡格鲁肽新适应症获批IND
近日,甘李药业股份有限公司及其全资子公司甘李药业山东有限公司宣布,其自主研发的博凡格鲁肽(研发代号:GZR18)注射液增加新适应症的临床试验申请获得国家药监局批准。拟用于...
2026-03-25 14:38
资讯 茵菲多组学完成5100万元Pre-A轮融资,构建“硬件+AI+试剂”一体化技术壁垒
本轮融资由杭州新干世业、三泽资本、泰煜投资、德华创投共同参与,丰和资本担任独家财务顾问
2026-03-24 12:59
资讯 赶早赴约,忆路守护 礼来携手清华大学阿尔茨海默病科普创意大赛圆满收官
今日,由礼来主办,清华大学承办的 “赶早赴约,忆路守护” 阿尔茨海默病(AD)科普创意大赛颁奖典礼在清华大学圆满落幕。
2026-03-23 17:48












