许多患有神经疾病的患者因丧失语言能力,需要依赖特定的通讯设备进行沟通,这类设备利用脑机接口或者头部、眼睛的动作来控制光标选择字母,从而说出他们想说的话。但是,这个过程比人类的正常语速慢得多,往往是在蹦单词。
4 月 25 日,Nature 杂志发表了加州大学旧金山分校(University of California San Francisco)的一项最新成果,该校神经外科华裔教授 Edward Chang 及同事开发出一种可以将脑活动转化为语音的解码器。这套人类语音合成系统,通过解码与人类下颌、喉头、嘴唇和舌头动作相关的脑信号,并合成出受试者想要表达的语音。
研究人员表示,脑机接口正迅速成为恢复功能丧失的临床可行手段,这项最新的研究成果解决了瘫痪和失语患者所面临的重大挑战,并可能是让他们恢复“说话”能力的重要一步。
在 Nature 杂志同时配发的评论文章中,埃默里大学和佐治亚理工学院的 Chethan Pandarinath 和 Yahia Ali 认为,这种使用控制嘴唇、舌头、喉部和下颌运动的神经信号合成语音的脑机接口设备,可以成为在失语者中恢复语音功能的奠基性工作。
解读大脑的意图
说话似乎是一件毫不费力的事,但实际上说话却是人类执行的最复杂的活动之一。它需要精确、动态地协调声道咬合结构中的肌肉、嘴唇、舌头、喉部和下颌。
当一个人因中风、肌萎缩侧索硬化(霍金即患此病)或其他神经系统疾病而丧失语言功能和沟通能力时,对他的影响和打击可能是毁灭性的。
如果有一种技术,能将神经活动转化为言语,那对于因神经损伤而无法沟通的人来说将具有变革性。理论上说,脑机接口技术可以通过直接从大脑“读取”人的意图,并使用该信息来控制外部设备或移动瘫痪的肢体,来帮助瘫痪的人完成说话或运动。
在科幻世界里,意念控制的实现可以顺手拈来、轻而易举。而在现实世界中,其背后的脑机接口技术已有近百年的历史。科学家们也一直希望在该领域实现科学研究与应用技术的突破,为许多当前仍无法解答的难题提供更好的探索工具,帮助人类进一步了解自己的大脑,进而预防、诊断、治疗脑部疾病及其他重大疾病,并将这一技术广泛应用于睡眠管理、智能生活和残疾人康复等领域。
目前一些用于大脑控制打字的脑机接口技术,依赖于测量头部或眼睛的残余非语言运动,或者依赖于控制光标以逐个选择字母并拼出单词,已经可以帮助瘫痪的人通过设备每分钟输出多达 8 个单词。
这些技术已经给有严重沟通障碍的患者带来了巨大的生活改善,但与自然语音每分钟 150 个单词的平均速度比起来,现有技术的输出速度还是太慢了,距离通过脑机接口实现自然语音的流畅交流还有很大差距。
直接通过大脑活动信号来合成语音,是一种颇有前景的替代方案。拼写只是离散字母的连续串联,而语音则是一种高效的通信形式。与基于拼写的方法相比,直接语音合成具有几个主要优点。除了以自然语速传递无约束词汇的能力之外,直接语音合成还能捕获语音的韵律元素,例如音调、语调,这些是文本输出所不具备的。
此外,当前替代通信设备的实际限制是学习和使用它们所需的认知努力。因此,对于由肌萎缩性侧索硬化或脑干中风引起的瘫痪患者,通过直接记录来自大脑皮层的神经控制信号来合成语音,是实现自然语言高通信速率的唯一手段,也是最直观的方法。
2017 年, 本文作者 Edward Chang 以及他的研究生 Claire Tang 就曾在 Science 杂志发表论文,阐述大脑皮层颞上回神经元在语言中的重要性。研究发现了人类大脑中用于辨别相对声调变化的神经元,这种神经元可以帮助人类在语言中明确表达感情、交流思想。
但揭示大脑信号如何控制声道发音部位的运动仍具有挑战性。因为说话这一过程需要对声道咬合部位进行非常精确和快速的多维控制。而且,语音合成还存在一个与以往完全不同的挑战,就是解码声道运动和声音之间复杂的对应关系。自然语音产生涉及 100 多块小肌肉,从肌肉运动到声音的映射也不是一对一的。
合成能听懂的语音
在 Nature 的这项最新研究中,为了实现将脑信号转换为可理解的合成语音,并且是以流利说话者的速度输出,研究人员设计了一种神经解码器,明确地利用人类皮层活动中编码的运动学和声音表征来合成可听语音。
研究人员招募 5 名正在接受癫痫治疗的参与者,作为癫痫治疗的一部分,他们会通过电极监测大脑活动。研究人员在 5 名受试者大声说出几百个句子时,记录下他们的高密度脑电图(ECoG)信号,并跟踪控制语音和发生部位运动的大脑区域活动。
为了重建语音,研究人员设计了一种循环神经网络(RNN),首先将记录的皮质神经信号转化为声道咬合关节运动,然后将这些解码的运动转化为口语句子。
图 | 用于语音合成的脑机接口(来源:Nature)
以前的语音合成研究采用了上图 a 的方法,即使用脑电图设备监测大脑语音相关区域的神经信号,并尝试使用循环神经网络将这些信号直接解码为合成语音。
而 Edward Chang 以及同事开发了一种不同的方法(上图 b),将解码分为两个步骤。
第一步,将神经信号转换成声道咬合部位的运动(红色),这其中涉及语音产生的解剖结构(嘴唇、舌头、喉和下颌)。而为了实现神经信号到声道咬合部位运动的转化,就需要大量声道运动与其神经活动相关联的数据。但研究人员又难以直接测量每个人的声道运动,因此他们建立了一个循环神经网络,根据以前收集的大量声道运动和语音记录数据库来建立关联。
第二步,将声道咬合部位的运动转换成合成语音
图 | 神经解码语音合成过程(来源:Nature)
研究人员的这种两步解码方法,产生的语音失真率明显小于使用直接解码方法所获得的语音。在包含 101 个句子的试验中,听者可以轻松地识别并记录下合成的语音。
在另外的测试中,一名受试者首先按要求说出句子,然后再不出声地做出相同的发音动作。结果表明,无声言语的合成效果不如有声言语,但是研究人员认为仍有可能解码无声言语的特征。
所有当前用于语音解码的方法都需要使用发声语音训练解码器,基于这些方法的脑机接口技术也就不能让不会说话的人上手就用。对于已经丧失说话能力的患者来说,无法发声训练解码器是一个大问题。
但 Edward Chang 表示,虽然语音解码的准确性大大降低,但受试者在没有声音的情况下模仿发音仍然可以进行语音合成。至于那些不再产生语音相关运动的个体是否适用这套最新的语音合成脑机接口系统,还需要未来的进一步研究。
Chethan Pandarinath 和 Yahia Ali 认为,无论是在语音重建的准确性方面,还是在听众对所产生语句的辨识力方面,Edward Chang 及其同事的研究结果都为语音合成脑机接口的概念验证提供了令人信服的证据。
不过,要使该系统真正成为一个临床可行的语音合成脑机接口,还存在许多挑战,毕竟重构语音的可懂度(intelligibility)仍远低于自然语音。好在,通过收集更大的数据集并继续开发基础计算方法,或许可以进一步改善语音合成脑机接口技术。
由于不能直接在动物身上进行相关研究,这在一定程度上限制了人类语言产生的研究进展,但近十年来,随着深度学习和人工神经网络的出现,以及多学科协作的能力,从探索语言相关大脑区域的开创性临床研究,到语音合成脑机接口的概念证明,都取得了引人注目的快速发展。
随着语音合成脑机接口的概念证明,我们期待有关临床试验的早日开展,也期待那些语言障碍患者能够早日重获自由说话并与世界重新联系的能力。
参考:
https://www.nature.com/articles/s41586-019-1119-1
https://www.technologyreview.com/s/613421/scientists-have-found-a-way-to-decode-brain-signals-into-speech/
来源: DeepTech深科技 作者:王新凯
为你推荐
资讯 从“无差别轰炸”到“定点爆破”,我国二线HER2阳性胃癌治疗迎来靶向ADC新突破
近日,优赫得®(注射用德曲妥珠单抗)正式获得中国国家药品监督管理局(NMPA)批准,单药用于治疗既往接受过一种含曲妥珠单抗治疗方案的局部晚期或转移性HER2阳性成人胃或胃食...
2026-01-29 18:54
资讯 18个区域,中医优势病种按病种付费试点地区明确
根据《关于开展中医优势病种按病种付费试点工作的通知》要求,国家医保局、国家中医药局组织专家对申报中医优势病种按病种付费试点的地区开展遴选,经相应程序,确定北京、河北...
2026-01-29 18:16
资讯 合成生物创新企业康诺生物递交港交所上市申请
康诺生物核心业务聚焦于线粒体功能障碍相关疾病的研究,专注于NAD+抗心血管疾病、NAD+抗生殖功能障碍、NAD+抗神经退行性疾病和NAD+抗衰老等领域的科学应用
2026-01-29 18:15
资讯 奥纳再生完成数千万天使轮融资,加速异种移植技术产业化落地
本轮融资由达安创谷领投,黎曼猜想担任独家财务顾问,所筹资金将主要用于核心技术平台建设、现有产品管线研发推进及IND申报工作,助力公司加速异种移植技术的产业化落地,破解全...
2026-01-29 18:00
资讯 施维雅集团2024-2025财年合并销售收入达69亿欧元,同比增长16.2%,美国市场表现卓著
1月27日,全球知名跨国药企施维雅集团正式公布了2024-2025财年的财务业绩。施维雅集团2024-2025财年的合并收入达69亿欧元,超额完成60亿欧元的目标。较上一财年增长16 2%,显现...
2026-01-28 17:20
资讯 时隔23年,新修订的《中华人民共和国药品管理法实施条例》全文
1月27日,《中华人民共和国药品管理法实施条例》正式对外发布,这是时隔23年以来,首次全面修订药品管理法实施条例。
2026-01-28 12:38
资讯 先声药业一款双抗在研药物10.58亿欧元授权勃林格殷格翰
1月26日,先声药业发布公告称,与勃林格殷格翰达成一项许可与合作协议,双方将共同开发先声药业的临床前阶段TL1A IL23p19双特异性抗体SIM0709,用于炎症性肠病(IBD)的治疗。
2026-01-27 17:55
资讯 国家卫健委:新型抗肿瘤药物临床应用指导原则(2025年版)
新型抗肿瘤药物的一个显著特征是出现一批针对分子异常特征的药物——即分子靶向药物。 目前,根据是否需要做靶点检测,可以将常用小分子靶向药物、大分子单抗类药物以及小分子...
2026-01-27 11:46
资讯 CDE:针对泛肿瘤的抗肿瘤药物临床研发技术指导原则
泛肿瘤是从肿瘤起源和病因学等角度,将多种组织来源的肿瘤视为同一类疾病,并且寻求相同的治疗手段。当针对共有的分子改变开发药物时,不同肿瘤的患者均有可能从相同的药物治疗...
2026-01-25 18:54
资讯 病毒“突变”不等于更强生存力——华山张文宏教授团队发现:敏感性下降,往往伴随适应性下降
玛巴洛沙韦敏感性降低的突变发生率仍然极低(0 05%),未发现典型的I38T耐药突变。
2026-01-24 12:22
资讯 箕星药业宣布成功完成D1轮2.87亿美元融资,推进口服GLP-1药物开发
1月22日消息,箕星药业有限公司(Corxel Pharmaceuticals Limited)宣布已成功完成D1轮融资,募集资金高达2 87亿美元。
2026-01-23 18:00
资讯 基因启明完成亿元天使轮融资,加码iNKT细胞疗法研发与临床转化
本轮融资由人合资本独家投资。融资资金将重点用于推进公司核心iNKT细胞药物的临床试验进程,同时加速新管线的研发拓展与技术平台升级。
2026-01-23 14:05
资讯 商务部、国家发改委、国家卫健委、国家医保局等9部门印发促进药品零售行业高质量发展的意见
鼓励符合监管要求的实体医疗机构、互联网医院与药品零售企业依托电子处方流转平台进行处方流转。鼓励建设非医保药品自费处方电子流转平台,规范和完善相关药学服务。
2026-01-23 11:04
资讯 诺和诺德聚焦零售药店体重管理服务,启动“零售科学减重生态联盟”
1月22日,诺和诺德在福州举办超越·共盈——诺和诺德零售生态伙伴大会,大会汇聚连锁零售药店管理层、临床专家、资深药师、行业智库、零售生态合作伙伴等多方力量,正式启动零...
2026-01-22 21:53









