语音识别在医疗领域要跨过的那些坎儿

医疗健康 来源:健康界
2014
06/16
12:49
健康界 医疗健康

语音识别即通过麦克风捕捉用户发出的声音,将声波信号转换成机器可以处理的“发音特征”,再从发音和语言的“模型空间”中快速搜索最匹配的句子,即识别结果。语音识别过程就是一个模型匹配的过程,模型训练的好坏直接关系到系统识别的结果。

为了得到一个好的模型,往往需要有大量的原始语音数据来进行训练,特别是对于非特定人的语音识别系统来说,这一点显得更为重要。因此,在开始进行语音识别研究之前,首先要建立一个语音数据库。数据库包括不同性别、年龄、口音的说话人的声音,并且必须具有代表性,能均衡地反映实际使用情况。模型训练就是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数。

目前在医学领域并没有专门的语音识别词库和模型。由于医学术语、药物名称、疾病名称等用词的专业性很强,识别率会大幅下降。我带领团队花费了7个月的时间,分别于iOS平台和Android平台,采用科大讯飞和云之声两个主流第三方SDK,对药品词库的36176个药品名称和疾病词库的23501个疾病名进行了测试,训练出错率较高的词汇,初步搭建了医学语音识别领域的第三方素材库,并决定免费开放给任何有志于开发移动医疗APP的创业团队和个人。

下面以Android为例,具体介绍我们构建体系的流程、标准和测试方法,以帮助各位移动医疗开发人员快速上手:

测试平台:2台android4.0系统手机(小米2、中兴U930HD)、珍立拍系统、科大讯飞SDK

小    组: A组和B组

测试方法:对所有药品和疾病名称进行反复测试,使用纠正训练法,来克服语音识别体系中HMM的训练效果。小组A测试药品,小组B测试疾病,普通话识别。

测试步骤:

1. 医学词汇约有数十万条,前期总结查找筛选最常用词汇并分组。

2. 使用珍立拍系统中的语音识别对所有词库进行第一遍测试。

3. 在第一遍测试的基础上,对筛选出来错误的词汇进行二次测试,再次筛选。

4. 总结出识别易错词汇,两组交叉测试后,随后交给程序人员,按科大讯飞SDK模型训练,输入相应代码,完善建库。

可能存在的影响因素:

1.  读错:由于医学词汇中有很多较为生僻的汉字,读错很难避免,很多医生即使会写这个词,但是发音也可能会错。

规避方法:遇到拿捏不准的汉字时,查找准确读音,尽量避免错误。

2. 环境因素:测试时,所处的环境存在噪音。

规避方法:选择在低噪音环境中测试,但不能完全于安静的环境中测试,因其与日常使用环境不符。

3. 汉字的同音字:例如“弱视”“荨麻疹”,识别结果“若是”“寻麻疹”。

4. 汉字尾音:例如“肝癌”,识别结果为“刚来”。

5. 实际发音影响:例如“阻生齿”,识别结果“主生殖”。

下面以疾病词汇举例:

测试小结:

由统计结果可以看出,疾病名的识别率高于药品名。笔者分析,造成此结果的原因在于,疾病名的广普率要高于药品名,所以各个语音识别公司比较重视,而且疾病生僻汉字较少,而药品种类要远多于疾病种类,其中生僻汉字也较多。二次测试的正确率较一次测试大约提升了一个百分点左右,还是可以适当减少错误数据库中的词汇量。

音节短的词出错率较高,如:单音节词,痣(识别结果“志”),双音节词,义眼(识别结果“一眼”),长音节词出错率低,原因可能是音节越短的词,其同音节的普通词较其更常见,而且如果其尾音特殊的话,影响较大。

针对医学专业词汇识别率低的问题,目前可使用以下三种解决办法:

一、  扩充自定义词库

虽然有用户词表,但是目前科大讯飞用户词表仅限数量2000,经沟通后他们正在扩大词汇表数量中。但如果数据过大,将会导致数据包过重的问题,而移动端由于存储和运算能力受限,所以无法满足数量庞大的整个医学词库,因此我们只能先做常用库。

二、  搭建第三方素材库

语音识别虽然在实用性上已得到很大提高,但是由于目前语音识别的单一性(只能单纯的识别中文或者英文),以及使用环境、语音差异化等因素的影响,容易造成识别错误。就这些因素而言,我们为此做了大量的基础工作,用于搭建第三方数据库,在尽可能排除其它干扰因素的情况下,检测出识别错误的词汇,也为下一步构建专业领域的识别模型搭建出了样本数据库(针对大量样本数据库,精简出识别错误的小样本数据库,减少模型训练词库)。

三、  构建专业领域的识别模型

对于有大量专业词汇的识别系统来说,使用模型训练可以有效提升识别率,目前模型训练比较常用的有四种方法:最大似然估计、纠正训练法、最小分类错误、最大互信息方法。模型训练需要专业的技术,并与语音识别公司进行合作,由企业提供词库信息和语音集,专业人员采用模型训练对需要识别的词库进行训练,最终给出个性化定制的识别模型,以提升识别率。

语音识别技术在移动医疗领域中的应用会越来越普遍,但还有大量的基础工作需要我们大家齐心协力去完成。希望业内的精英之士能够对此多交流,多合作,抛开一些利益的纠葛,共同为行业的发展贡献出自己的力量。


来源:健康界

为你推荐

因美纳完成对SomaLogic的收购资讯

因美纳完成对SomaLogic的收购

双方整合将为蛋白质分析带来更高的可扩展性、灵活性与性价比

2026-01-30 22:18

阿斯利康宣布将于2030年前在华投资逾1000亿元人民币,与石药集团达成超百亿美元战略合作资讯

阿斯利康宣布将于2030年前在华投资逾1000亿元人民币,与石药集团达成超百亿美元战略合作

1月29日,阿斯利康宣布,计划于2030年前在中国投资逾1000亿元人民币(150亿美元),以扩大在药品生产与研发领域的布局。公司将充分发挥中国的科研优势和先进制造能力,并依托中...

2026-01-30 13:00

从“无差别轰炸”到“定点爆破”,我国二线HER2阳性胃癌治疗迎来靶向ADC新突破资讯

从“无差别轰炸”到“定点爆破”,我国二线HER2阳性胃癌治疗迎来靶向ADC新突破

近日,优赫得®(注射用德曲妥珠单抗)正式获得中国国家药品监督管理局(NMPA)批准,单药用于治疗既往接受过一种含曲妥珠单抗治疗方案的局部晚期或转移性HER2阳性成人胃或胃食...

2026-01-29 18:54

18个区域,中医优势病种按病种付费试点地区明确资讯

18个区域,中医优势病种按病种付费试点地区明确

根据《关于开展中医优势病种按病种付费试点工作的通知》要求,国家医保局、国家中医药局组织专家对申报中医优势病种按病种付费试点的地区开展遴选,经相应程序,确定北京、河北...

2026-01-29 18:16

合成生物创新企业康诺生物递交港交所上市申请资讯

合成生物创新企业康诺生物递交港交所上市申请

康诺生物核心业务聚焦于线粒体功能障碍相关疾病的研究,专注于NAD+抗心血管疾病、NAD+抗生殖功能障碍、NAD+抗神经退行性疾病和NAD+抗衰老等领域的科学应用

2026-01-29 18:15

奥纳再生完成数千万天使轮融资,加速异种移植技术产业化落地资讯

奥纳再生完成数千万天使轮融资,加速异种移植技术产业化落地

本轮融资由达安创谷领投,黎曼猜想担任独家财务顾问,所筹资金将主要用于核心技术平台建设、现有产品管线研发推进及IND申报工作,助力公司加速异种移植技术的产业化落地,破解全...

2026-01-29 18:00

关注:2026年春节假期出行健康及安全提示建议资讯

关注:2026年春节假期出行健康及安全提示建议

2与2日,一年一度的春运将正式开始,2月15日,被称为史上最长春节假期的马年春节也即将到。

2026-01-29 17:36

施维雅集团2024-2025财年合并销售收入达69亿欧元,同比增长16.2%,美国市场表现卓著资讯

施维雅集团2024-2025财年合并销售收入达69亿欧元,同比增长16.2%,美国市场表现卓著

1月27日,全球知名跨国药企施维雅集团正式公布了2024-2025财年的财务业绩。施维雅集团2024-2025财年的合并收入达69亿欧元,超额完成60亿欧元的目标。较上一财年增长16 2%,显现...

2026-01-28 17:20

时隔23年,新修订的《中华人民共和国药品管理法实施条例》全文资讯

时隔23年,新修订的《中华人民共和国药品管理法实施条例》全文

1月27日,《中华人民共和国药品管理法实施条例》正式对外发布,这是时隔23年以来,首次全面修订药品管理法实施条例。

2026-01-28 12:38

先声药业一款双抗在研药物10.58亿欧元授权勃林格殷格翰资讯

先声药业一款双抗在研药物10.58亿欧元授权勃林格殷格翰

1月26日,先声药业发布公告称,与勃林格殷格翰达成一项许可与合作协议,双方将共同开发先声药业的临床前阶段TL1A IL23p19双特异性抗体SIM0709,用于炎症性肠病(IBD)的治疗。

2026-01-27 17:55

国内两家AI制药代表企业与国内知名药企达成合作资讯

国内两家AI制药代表企业与国内知名药企达成合作

1月26日,国内AI药物上市代表企业晶泰控股、英矽智能分别与国内知名药企达成合作。

2026-01-27 12:56

国家卫健委:新型抗肿瘤药物临床应用指导原则(2025年版)资讯

国家卫健委:新型抗肿瘤药物临床应用指导原则(2025年版)

新型抗肿瘤药物的一个显著特征是出现一批针对分子异常特征的药物——即分子靶向药物。 目前,根据是否需要做靶点检测,可以将常用小分子靶向药物、大分子单抗类药物以及小分子...

2026-01-27 11:46

CDE:针对泛肿瘤的抗肿瘤药物临床研发技术指导原则资讯

CDE:针对泛肿瘤的抗肿瘤药物临床研发技术指导原则

泛肿瘤是从肿瘤起源和病因学等角度,将多种组织来源的肿瘤视为同一类疾病,并且寻求相同的治疗手段。当针对共有的分子改变开发药物时,不同肿瘤的患者均有可能从相同的药物治疗...

2026-01-25 18:54

“肥胖与脂肪肝早筛早治健康管理行动计划”在广州正式启动资讯

“肥胖与脂肪肝早筛早治健康管理行动计划”在广州正式启动

1月24日,由健康报社主办、信达生物支持的“肥胖与脂肪肝早筛早治健康管理行动计划”在广州正式启动。

2026-01-24 17:24

病毒“突变”不等于更强生存力——华山张文宏教授团队发现:敏感性下降,往往伴随适应性下降资讯

病毒“突变”不等于更强生存力——华山张文宏教授团队发现:敏感性下降,往往伴随适应性下降

玛巴洛沙韦敏感性降低的突变发生率仍然极低(0 05%),未发现典型的I38T耐药突变。

2026-01-24 12:22

箕星药业宣布成功完成D1轮2.87亿美元融资,推进口服GLP-1药物开发资讯

箕星药业宣布成功完成D1轮2.87亿美元融资,推进口服GLP-1药物开发

1月22日消息,箕星药业有限公司(Corxel Pharmaceuticals Limited)宣布已成功完成D1轮融资,募集资金高达2 87亿美元。

2026-01-23 18:00

哈维医疗完成数千万元Pre-A轮融资,深耕呼吸医疗赛道资讯

哈维医疗完成数千万元Pre-A轮融资,深耕呼吸医疗赛道

本轮融资由如山资本旗下星链智投基金独家领投

2026-01-23 14:10

基因启明完成亿元天使轮融资,加码iNKT细胞疗法研发与临床转化资讯

基因启明完成亿元天使轮融资,加码iNKT细胞疗法研发与临床转化

本轮融资由人合资本独家投资。融资资金将重点用于推进公司核心iNKT细胞药物的临床试验进程,同时加速新管线的研发拓展与技术平台升级。

2026-01-23 14:05

商务部、国家发改委、国家卫健委、国家医保局等9部门印发促进药品零售行业高质量发展的意见资讯

商务部、国家发改委、国家卫健委、国家医保局等9部门印发促进药品零售行业高质量发展的意见

鼓励符合监管要求的实体医疗机构、互联网医院与药品零售企业依托电子处方流转平台进行处方流转。鼓励建设非医保药品自费处方电子流转平台,规范和完善相关药学服务。

2026-01-23 11:04