早在2000年,人类基因组序列草图还在制作中时,遗传学家们就开始对人类基因数目进行估算。近20年后,拥有真实数据的他们仍然无法就这一数量达成一致,这一知识差距阻碍了他们在发现与突变相关疾病上的努力。直至最近,科学家们又发布了最新数据:他们认为人类共有超过2.1万个蛋白质编码基因。
最新结果使用了数百份人体组织样本的数据,并于5月29日发布在BioRxiv预印本服务器上。它包含了近5000个以前未被发现的基因,其中近1200个携带了制造蛋白质的指令(carry instructions for making proteins)。总的来说,与先前估计的约2万个蛋白质编码基因数目相比,本次统计有所上升,总数为超过2.1万个。
DOI: https://doi.org/10.1101/332825
然而,许多遗传学家并不确信,所有新提出的基因都将经得起严密的审查。他们的批评也凸显了识别并定义新基因的难度之大。
领导本次基因数目统计的生物学家Steven Salzberg说:“人们在这方面已经努力了20年,但我们仍然没有答案。”
最终答案?
2000年,随着基因组学界对人类基因数量的争论, Ewan Birney(目前为英国Hinxton欧洲生物信息学研究所[EBI]所长)发起了基因竞赛。他在每年一度的遗传学会议上于一个酒吧里进行了第一次投注,这次比赛最终吸引了1000多名参赛者和3000美元的奖金。对基因数量的押注从超过312,000个到略低于26,000个不等,平均约为40,000个。之后,估计的范围在缩小,大致范围在19000到22000之间,但仍然存在分歧。
Source: M. Pertea & S. L. Salzberg
基因计数可以根据被分析的数据、使用的工具和剔除假阳性的标准而变化。最新的统计使用了更大的数据集和不同于先前的计算方法,以及更广泛的基因定义标准。
Salzberg的研究小组使用了来自基因型组织表达( GTEx )项目的数据,该项目对数百具死尸的30多个不同组织的RNA进行了测序(RNA是DNA和蛋白质之间的中介)。为了鉴定编码蛋白质的基因和那些在细胞中不编码但仍起重要作用的基因,他们组装了GTEx的9000亿个微小RNA片段,并将其与人类基因组对齐。
然而,仅仅因为一段DNA表达为RNA,并不一定意味着它就是一个基因。所以这个小组试图用各种标准滤除噪音。例如,他们将研究结果与其他物种的基因组进行了比较,认为远亲生物共享的序列很可能由于进化而得以保留(因为它们具有功能性),而且很可能是基因。
最终,研究小组留下了21,306个蛋白质编码基因和21,856个非编码基因,远远超过两个最广泛使用的人类基因数据库(由EBI维护的GENCODE基因组包括19,901个蛋白质编码基因和15,779个非编码基因以及由美国国家生物技术信息中心管理的数据库RefSeq列出的20,203个蛋白质编码基因和17,871个非编码基因)。
前RefSeq负责人Kim Pruitt认为,造成这种差异的原因一部分是由于Salzberg团队分析的大数据量;另外一个主要的区别是,GENCODE和RefSeq都依赖人工处理——人为查看每个基因的证据并做出最终决定,而Salzberg的小组则完全依靠计算机程序来筛选数据。
“如果人们喜欢我们的基因列表,那么也许几年后我们将成为人类基因的仲裁者。” Salzberg说。
何为基因的定义标准?
需要指出的是,许多科学家仍坚称,他们需要更多的证据才能确信这份清单的准确性。协调GENCODE人工注释的EBI计算生物学家Adam Frankish说,他和他的团队已经扫描了Salzberg团队鉴定的大约100个蛋白质编码基因。据他们评估,其中只有一个似乎是真正的蛋白质编码基因。
Pruitt的团队成员研究了Salzberg小组的十几个新的蛋白质编码基因,但没有发现任何符合RefSeq标准的基因。有些与基因组中似乎属于侵入我们祖先基因组的逆转录病毒的区域重叠;另一些属于其他重复性延伸(repetitive stretches),很少被翻译成蛋白质。
但是Salzberg认为一些重复序列可以被认为是基因。ERV3–1就是一个例子,它出现在RefSeq中,并编码在结直肠癌中过表达的蛋白质。同时Salzberg也承认,他团队名单上的新基因将需要他们自己和其他人的验证。“
最令人困惑的是基因定义的变化和不精确。生物学家过去认为基因是编码蛋白质的序列,但后来发现一些非编码RNA分子在细胞中有重要作用。这一基因判定的标准争议也解释了Salzberg计数和其他计数之间的一些差异。
重要意义
准确统计所有人类基因对于揭示基因与疾病之间的联系非常重要。Salzberg指出,不计其数的基因经常被忽视,即使它们含有致病突变。但是仓促地将基因添加到主列表中也会带来风险。一个错误的基因将会转移遗传学家对真正问题的注意力。
Pruitt补充道:”生物学是复杂的。数据库与库之间的基因数量不一致对研究人员来说仍然是个问题,人们还在寻求一个最终的答案。“
参考文献:
New human gene tally reignites debate
来源:生物探索
作者:Tierna
来源:生物探索 作者:Tierna
为你推荐
资讯 社保“第六险”,长期护理险全国落地
3月25日,中共中央办公厅、国务院办公厅发布《关于加快建立长期护理保险制度的意见》,标志着这项被称作社保“第六险”的制度正式结束10年试点,迈向全国建制新阶段。
2026-03-26 18:09
资讯 国家药监局发布《药品现代物流规范化建设指导意见》,自发布之日起施行
本指导意见是对申请开办药品批发企业(以下简称批发企业)和接受委托储存运输药品业务的第三方药品现代物流企业(以下简称第三方物流企业),在药品现代物流设施设备等方面的基...
2026-03-26 10:14
资讯 华东医药独家商业化VC005片Ⅲ期临床顶线数据积极,抢占自免口服疗法新高地
华东医药战略合作方江苏威凯尔医药科技股份有限公司(简称“江苏威凯尔”)宣布,其自主研发的Ⅱ代高选择性JAK1抑制剂VC005片在口服治疗中重度特应性皮炎(AD)的Ⅲ期临床研究中...
2026-03-25 18:52
资讯 Cytiva携手上海临床研究中心与新叶生维, 加速先进细胞治疗临床应用转化与产业化发展
Cytiva与上海临床研究中心签署战略合作备忘录,共同设立先进细胞治疗技术临床应用示范平台,以产学研协同为牵引,带动区域产业升级。
2026-03-25 18:46
资讯 国家药监局批准两款创新医疗器械
近日,国家药品监督管理局批准了两款创新医疗器械上市。分别为阿迈特医疗器械(北京)股份有限公司二氧化碳造影压力注射套装创新产品注册申请和应脉医疗科技(上海)有限公司经...
2026-03-25 14:53
资讯 甘李药业博凡格鲁肽新适应症获批IND
近日,甘李药业股份有限公司及其全资子公司甘李药业山东有限公司宣布,其自主研发的博凡格鲁肽(研发代号:GZR18)注射液增加新适应症的临床试验申请获得国家药监局批准。拟用于...
2026-03-25 14:38
资讯 茵菲多组学完成5100万元Pre-A轮融资,构建“硬件+AI+试剂”一体化技术壁垒
本轮融资由杭州新干世业、三泽资本、泰煜投资、德华创投共同参与,丰和资本担任独家财务顾问
2026-03-24 12:59
资讯 赶早赴约,忆路守护 礼来携手清华大学阿尔茨海默病科普创意大赛圆满收官
今日,由礼来主办,清华大学承办的 “赶早赴约,忆路守护” 阿尔茨海默病(AD)科普创意大赛颁奖典礼在清华大学圆满落幕。
2026-03-23 17:48
资讯 健康小美+蚂蚁阿福,美年健康与蚂蚁健康推动AI医疗深度合作
3月23日,美年健康与蚂蚁健康宣布达成全面战略合作。双方将依托美年长期沉淀的专业健康数据体系、覆盖全国的线下医疗服务网络,以及医学检测设备与标准化医疗服务能力所构成的这...
2026-03-23 17:06
资讯 迪哲医药舒沃哲单药一线治疗EGFR exon20ins非小细胞肺癌国际多中心III期临床试验获阳性顶线结果
3月23日,迪哲医药发布公告称,其自主研发的产品舒沃哲(ZEGFROVY,通用名:舒沃替尼片)单药一线治疗表皮生长因子受体(EGFR)20 号外显子插入突变(exon20ins)晚期非小细胞...
2026-03-23 10:45













