语音识别在医疗领域要跨过的那些坎儿

医疗健康 来源:健康界
2014
06/16
12:49
健康界 医疗健康

语音识别即通过麦克风捕捉用户发出的声音,将声波信号转换成机器可以处理的“发音特征”,再从发音和语言的“模型空间”中快速搜索最匹配的句子,即识别结果。语音识别过程就是一个模型匹配的过程,模型训练的好坏直接关系到系统识别的结果。

为了得到一个好的模型,往往需要有大量的原始语音数据来进行训练,特别是对于非特定人的语音识别系统来说,这一点显得更为重要。因此,在开始进行语音识别研究之前,首先要建立一个语音数据库。数据库包括不同性别、年龄、口音的说话人的声音,并且必须具有代表性,能均衡地反映实际使用情况。模型训练就是指按照一定的准则,从大量已知模式中获取表征该模式本质特征的模型参数。

目前在医学领域并没有专门的语音识别词库和模型。由于医学术语、药物名称、疾病名称等用词的专业性很强,识别率会大幅下降。我带领团队花费了7个月的时间,分别于iOS平台和Android平台,采用科大讯飞和云之声两个主流第三方SDK,对药品词库的36176个药品名称和疾病词库的23501个疾病名进行了测试,训练出错率较高的词汇,初步搭建了医学语音识别领域的第三方素材库,并决定免费开放给任何有志于开发移动医疗APP的创业团队和个人。

下面以Android为例,具体介绍我们构建体系的流程、标准和测试方法,以帮助各位移动医疗开发人员快速上手:

测试平台:2台android4.0系统手机(小米2、中兴U930HD)、珍立拍系统、科大讯飞SDK

小    组: A组和B组

测试方法:对所有药品和疾病名称进行反复测试,使用纠正训练法,来克服语音识别体系中HMM的训练效果。小组A测试药品,小组B测试疾病,普通话识别。

测试步骤:

1. 医学词汇约有数十万条,前期总结查找筛选最常用词汇并分组。

2. 使用珍立拍系统中的语音识别对所有词库进行第一遍测试。

3. 在第一遍测试的基础上,对筛选出来错误的词汇进行二次测试,再次筛选。

4. 总结出识别易错词汇,两组交叉测试后,随后交给程序人员,按科大讯飞SDK模型训练,输入相应代码,完善建库。

可能存在的影响因素:

1.  读错:由于医学词汇中有很多较为生僻的汉字,读错很难避免,很多医生即使会写这个词,但是发音也可能会错。

规避方法:遇到拿捏不准的汉字时,查找准确读音,尽量避免错误。

2. 环境因素:测试时,所处的环境存在噪音。

规避方法:选择在低噪音环境中测试,但不能完全于安静的环境中测试,因其与日常使用环境不符。

3. 汉字的同音字:例如“弱视”“荨麻疹”,识别结果“若是”“寻麻疹”。

4. 汉字尾音:例如“肝癌”,识别结果为“刚来”。

5. 实际发音影响:例如“阻生齿”,识别结果“主生殖”。

下面以疾病词汇举例:

测试小结:

由统计结果可以看出,疾病名的识别率高于药品名。笔者分析,造成此结果的原因在于,疾病名的广普率要高于药品名,所以各个语音识别公司比较重视,而且疾病生僻汉字较少,而药品种类要远多于疾病种类,其中生僻汉字也较多。二次测试的正确率较一次测试大约提升了一个百分点左右,还是可以适当减少错误数据库中的词汇量。

音节短的词出错率较高,如:单音节词,痣(识别结果“志”),双音节词,义眼(识别结果“一眼”),长音节词出错率低,原因可能是音节越短的词,其同音节的普通词较其更常见,而且如果其尾音特殊的话,影响较大。

针对医学专业词汇识别率低的问题,目前可使用以下三种解决办法:

一、  扩充自定义词库

虽然有用户词表,但是目前科大讯飞用户词表仅限数量2000,经沟通后他们正在扩大词汇表数量中。但如果数据过大,将会导致数据包过重的问题,而移动端由于存储和运算能力受限,所以无法满足数量庞大的整个医学词库,因此我们只能先做常用库。

二、  搭建第三方素材库

语音识别虽然在实用性上已得到很大提高,但是由于目前语音识别的单一性(只能单纯的识别中文或者英文),以及使用环境、语音差异化等因素的影响,容易造成识别错误。就这些因素而言,我们为此做了大量的基础工作,用于搭建第三方数据库,在尽可能排除其它干扰因素的情况下,检测出识别错误的词汇,也为下一步构建专业领域的识别模型搭建出了样本数据库(针对大量样本数据库,精简出识别错误的小样本数据库,减少模型训练词库)。

三、  构建专业领域的识别模型

对于有大量专业词汇的识别系统来说,使用模型训练可以有效提升识别率,目前模型训练比较常用的有四种方法:最大似然估计、纠正训练法、最小分类错误、最大互信息方法。模型训练需要专业的技术,并与语音识别公司进行合作,由企业提供词库信息和语音集,专业人员采用模型训练对需要识别的词库进行训练,最终给出个性化定制的识别模型,以提升识别率。

语音识别技术在移动医疗领域中的应用会越来越普遍,但还有大量的基础工作需要我们大家齐心协力去完成。希望业内的精英之士能够对此多交流,多合作,抛开一些利益的纠葛,共同为行业的发展贡献出自己的力量。


来源:健康界

为你推荐

华东医药自免创新管线进展频频,罗氟司特乳膏0.3%剂型在华上市申请获受理资讯

华东医药自免创新管线进展频频,罗氟司特乳膏0.3%剂型在华上市申请获受理

适用于 6 岁及以上斑块状银屑病患者的局部外用治疗,包括间擦部位。

2025-10-31 19:15

2026年1月1日,启用新版《药品生产许可证》《放射性药品生产许可证》样式资讯

2026年1月1日,启用新版《药品生产许可证》《放射性药品生产许可证》样式

新版许可证正、副本登载不同的二维码,并分别标注正本二维码和副本二维码字样。正本二维码展示企业基本信息,副本二维码除展示企业基本信息外,同时封装企业车间和生产线、委托...

2025-10-31 17:30

国医通获近亿元 D 轮融资,赋能基层血液净化升级资讯

国医通获近亿元 D 轮融资,赋能基层血液净化升级

所筹资金将定向用于核心在研产品开发、商业化推广及新产线投建,为基层血液净化产业升级注入强心剂。

2025-10-31 17:17

迈科康生物完成超 4 亿元 D 轮融资,核心疫苗研发加速冲刺资讯

迈科康生物完成超 4 亿元 D 轮融资,核心疫苗研发加速冲刺

本轮融资由 IDG、深创投和瑞普医药联合注资,所募资金将重点投向重组带状疱疹疫苗上市准备、重组呼吸道合胞病毒(RSV)疫苗 III 期临床研究,以及多个创新疫苗管线的临床前研...

2025-10-31 17:15

“全勤生”罗氏:携十余款即将在华上市及未来管线产品首展首秀,加速迈向全疾病领域领航者资讯

“全勤生”罗氏:携十余款即将在华上市及未来管线产品首展首秀,加速迈向全疾病领域领航者

第八届中国国际进口博览会(以下简称进博会)进入开幕倒计时,作为最早向商务部表示支持并深度参与进博会的跨国企业,“全勤生”罗氏制药将连续第八年如期赴约。

2025-10-31 15:25

和誉医药2025研发日成功举办,展示创新管线布局与前沿临床进展资讯

和誉医药2025研发日成功举办,展示创新管线布局与前沿临床进展

2025年10月30日,和誉医药(港交所代码:02256 HK)2025研发日在上海成功举办。

2025-10-31 09:29

百时美施贵宝公布两项最新研究数据证实氘可来昔替尼可有效治疗银屑病关节炎及系统性红斑狼疮资讯

百时美施贵宝公布两项最新研究数据证实氘可来昔替尼可有效治疗银屑病关节炎及系统性红斑狼疮

截至第52周,氘可来昔替尼在POETYK PsA-1试验中的安全性特征与既往临床表现一致, 未发现新的安全信号

2025-10-29 17:34

备思复™(维恩妥尤单抗)联合帕博利珠单抗的补充生物制品许可申请(sBLA)已获FDA优先审评资格,用于治疗特定肌层浸润性膀胱癌患者资讯

备思复™(维恩妥尤单抗)联合帕博利珠单抗的补充生物制品许可申请(sBLA)已获FDA优先审评资格,用于治疗特定肌层浸润性膀胱癌患者

关键III期研究EV-303结果显示,顺铂不耐受的肌层浸润性膀胱癌患者围手术期使用该联合方案,可将复发、进展或死亡风险降低60%,死亡风险降低50%。

2025-10-29 16:13

HPV,男女共防,一则来自专家的提醒资讯

HPV,男女共防,一则来自专家的提醒

每年10月28日是“世界男性健康日”,该节日的设立旨在进一步推动男性生殖健康知识的普及、强化疾病预防工作,以及重点关注男性心理健康等问题。

2025-10-29 15:54

赛诺菲携多项创新八赴进博,两大重磅新药将迎全球首秀资讯

赛诺菲携多项创新八赴进博,两大重磅新药将迎全球首秀

赛诺菲将带来心血管领域两大重磅创新药阿夫凯泰片和普乐司兰钠注射液的全球首秀。

2025-10-29 13:20

第十一批国家药品集采拟中选结果名单资讯

第十一批国家药品集采拟中选结果名单

10月28日晚间,国家组织药品联合采购办公室正式对外发布了全国药品集中采购拟中选结果公示。

2025-10-28 21:14

上线3个月,蚂蚁AQ冲至AI原生APP规模TOP榜第七资讯

上线3个月,蚂蚁AQ冲至AI原生APP规模TOP榜第七

10月28日,QuestMobile发布《2025年三季度AI应用行业报告》,豆包、DeepSeek、元宝、AQ等多款应用入围中国AI原生应用Top10。

2025-10-28 16:36

新一代TRK抑制剂佐来曲替尼亮相2025年国际儿童肿瘤学会,分享在儿童及青少年晚期实体瘤中的I/II期临床数据资讯

新一代TRK抑制剂佐来曲替尼亮相2025年国际儿童肿瘤学会,分享在儿童及青少年晚期实体瘤中的I/II期临床数据

近日,2025年国际儿童肿瘤学会(SIOP)年会在荷兰阿姆斯特丹举行。作为全球规模最大、级别最高的儿童肿瘤学术会议,SIOP年会汇聚了国际一流临床医生与科学家,共同推动领域前沿进展。

2025-10-28 14:45

金赛药业GenSci098又一适应症获批临床资讯

金赛药业GenSci098又一适应症获批临床

将开展用于弥漫性毒性甲状腺肿的临床试验

2025-10-28 14:35

第四批鼓励仿制药品目录公示资讯

第四批鼓励仿制药品目录公示

第四批鼓励仿制药品建议目录共涉及21个品种,覆盖抗肿瘤药及免疫调节剂、肾病、眼部疾病、精神疾病、妇科用药等多个方面。

2025-10-28 14:28

玛仕度肽头对头司美格鲁肽III期临床研究DREAMS-3达成主要终点资讯

玛仕度肽头对头司美格鲁肽III期临床研究DREAMS-3达成主要终点

10月27日,信达生物宣布胰高血糖素(GCG) 胰高血糖素样肽-1(GLP-1)双受体激动剂玛仕度肽(研发代号:IBI362)的第四项III期临床研究(DREAMS-3)达成主要终点。

2025-10-28 13:46

ED诊疗缺口何在?专家倡导“全周期管理”破局资讯

ED诊疗缺口何在?专家倡导“全周期管理”破局

2025年中国男性健康日

2025-10-28 09:35

华东医药前三季度医药工业营收净利双位数增长,创新药商业化捷报频传资讯

华东医药前三季度医药工业营收净利双位数增长,创新药商业化捷报频传

2025年1-9月公司合计实现营业收入326 64亿元,同比增长3 77%;实现归母净利润27 48亿元,同比增长7 24%,实现扣非归母净利润26 94亿元,同比增长8 53%。

2025-10-27 20:44

Cytiva发布《2025全球生物制药指数》,加速中国创新抵达全球患者资讯

Cytiva发布《2025全球生物制药指数》,加速中国创新抵达全球患者

指数调研了22个国家的1250位生物制药高管,发现压力与竞争之下,全球生物医药市场挑战加剧

2025-10-27 18:32

药明康德28亿出售临床研究业务给高瓴资讯

药明康德28亿出售临床研究业务给高瓴

10 月 26 日晚间,药明康德(603259 SH)发布重大资产出售公告,宣布其全资子公司上海药明康德新药开发有限公司拟以 28 亿元基准价款,向高瓴投资旗下新设主体转让上海康...

2025-10-27 11:49