韩国科研团队:超90%的医学影像AI论文未在临床环境进行严格验证

医疗器械 来源:雷锋网 作者:李雨晨
2019
03/18
10:03
雷锋网
作者:李雨晨
医疗器械

近年来,人工智能在医学中的应用令人兴奋,但当前的一个问题是人工智能算法缺乏适当的临床验证。近日,韩国泰安郡卫生中心的Dong Wook Kim和蔚山大学医学院放射学研究中心的Hye Young Jang、Kyung Won Kim、Youngbin Shin以及Seong Ho Park(通讯作者)等几位医学博士发表了一篇论文,来评估AI算法性能研究实验的设计特征,这些AI算法基于医学影像来提供诊断决策。

研究团队通过检索PubMed MEDLINE和Embase数据库,以确定2018年1月1日至2018年8月17日期间发表的原始研究论文, 评估所选择的文章有以下几个条件:

1、该研究是否使用外部验证而不是内部验证,并且在外部验证的情况下,是否收集验证数据

2、是否使用诊断队列设计而不是诊断病例对照设计

3、是否来自多个机构

4、是否以前瞻性的方式

这些是在现实世界中用于临床验证AI性能的基本方法学特征。

确定了符合上述标准的研究后,研究团队将出版期刊分为医学期刊和非医学期刊。 然后,比较医学和非医学期刊之间的结果。在516项符合条件的已发表研究中,只有6%(31项研究)进行了外部验证。31项研究均未采用所有三种实验设计条件:诊断队列设计,包含多个机构,以及用于外部验证的前瞻性数据收集。医学和非医学期刊之间没有显着差异。

研究团队得出的结论是:几乎所有在研究期间发表的医学影像AI算法性能的评估实验,都是为验证技术概念的可行性而设计,没有对AI算法在实际临床环境下的性能进行严格验证。

引言

由于深度学习技术的进步,人工智能(AI)在医学中的应用引起了很多关注。值得注意的是,人们对使用AI进行各种医学影像的诊断分析非常感兴趣,主要是通过卷积神经网络,一种被称为“计算机视觉”的深度学习技术。与任何其他医疗设备或技术一样,通过充分设计的研究确保患者的利益和安全,同时避免任何无意的危害,在临床实践中采用AI算法进行全面临床验证的重要性不容小觑。

值得注意的是,在本研究中使用术语“验证”来表示确认,就像在医学领域中使用的那样,而不是在机器学习领域中用作技术术语“算法调整”的意思。

AI技术的临床验证可以在不同的水平上进行:诊断性能,对患者结果的影响以及考虑 cost-benefit 和 cost-effectiveness 的社会效能(societal efficacy)。正确评估使用深度学习分析医学图像的高维AI算法的真实临床性能需要适当设计的外部验证。建议外部验证使用重新招募的患者或提供训练数据的机构以外的其他机构收集的足够大小的数据集,以充分代表AI所应用的现实临床环境中的目标患者表现谱(即患者人口统计学和疾病状态的所有相关变化)。

此外,使用来自多个外部机构的数据对验证非常重要,以验证算法的泛化能力,应对各种医院系统的预期变异性。复杂的数学/统计AI模型,例如分析医学影像的深度学习算法,需要大量的数据用于算法训练;制作和注释这种量纲的医学影像数据资源尤其紧张和困难。因此,开发此类AI算法的个体可能依赖于任何可用的数据(方法上称为便利病例 - 对照数据 convenience case-control data),尽管这些可能易于发生选择偏倚和人为疾病流行(artificial disease prevalence),并且可能不能很好地代表实际临床设置。由于AI算法的性能很大程度上取决于其训练数据,因此存在真正的风险,即AI算法在实际操作中可能表现不佳,并且在一个机构训练的算法在应用于另一个机构的数据时提供不准确的结论。

尽管人工智能在医学中的应用令人兴奋,但人工智能算法缺乏适当的临床验证似乎是当前的一个问题,这种现象被称为“数字例外论”(digital exceptionalism)。例如,计算机科学家通常会在“测试”数据集上评估AI算法的性能;然而,这些通常是原始数据集的随机子样本,因此,不可能对临床表现进行充分的外部验证。据我们所知,显示这一显著问题确切程度的具体数据很少。

本研究旨在评估最近发表的研究的实验设计,这些研究报告了分析医学影像的AI算法的性能,并确定研究设计是否适合于验证AI算法在实际临床中的表现。本研究中提到的研究实验设计对于验证AI的真实临床表现至关重要,但对于验证概念技术可行性研究而言则过多。由于并非每项关于使用AI进行医学诊断的研究都是为了验证实际的临床表现,本研究的目的并不是直截了当地判断已发表研究的方法学适用性。

材料和方法

文献检索与筛选

我们对PubMed MEDLINE和Embase数据库进行了全面搜索,以确定调查AI算法性能的原始研究文章,该算法通过分析医学影像来提供诊断决策(例如诊断或发现特定疾病,又或者是提供信息以根据特定疾病将患者分类为亚组疾病状态、亚型、严重程度、阶段、治疗反应、预后和风险)。我们使用以下搜索查询: (“artificial intelligence” OR “machine learning” OR “deep learning” OR “convolutional neural network”) 和 (diagnosis OR diagnostic OR diagnosing) 和 (accuracy OR performance OR “receiver operating” OR ROC OR AUC)。我们将检索时间限制为2018年,以获得及时的结果(文献检索更新至2018年8月17日)。印刷出版物和电子出版物都包括在内。

在删除两个数据库之间的重叠之后,由两名独立评审员筛选文章的资格。在一次会议上重新评估了任何程度模糊或在两位审稿人之间产生意见分歧的文章,并邀请了第三位审稿人来达成一致。案例报告、评论文章、社论、信件、评论和会议摘要/程序被排除在外。我们的检索仅限于人类类别和英语语言的研究。

我们将医学图像定义为放射图像和其他医学图像(例如,内窥镜图像,病理图像和皮肤图像),并且没有考虑任何在时间上绘制一维数据的线条图,例如,心电图和A超。研究调查了结合医学图像和其他类型临床数据的AI算法。没有考虑除直接诊断决策之外的图像相关任务的AI算法,例如图像分割,定量测量和图像采集/重建的增强。

数据提取

两位评审员通过以下标准评估了符合条件的文章的全文:

1、该研究是否使用外部验证而不是内部验证,并且在外部验证的情况下,是否收集验证数据

2、是否使用诊断队列设计而不是诊断病例对照设计

3、是否来自多个机构

4、是否以前瞻性的方式

这些是在实际操作中推荐用于AI性能临床验证的基本方法学特征。这些问题中得到更多“是”的答案,则算法性能的实际应用越普遍。如果一项研究以多种方式验证其AI性能,那么如果至少有一项分析使用了这些设计条件,则该研究对上述每个问题都会为“是”。我们宽泛地定义了“外部”,包括训练数据和验证数据来自不同机构,以及从同一机构但在不同时间收集训练和验证数据的情况,即使后者在严格意义上不被视为外部验证。

对于在同一机构收集训练和验证数据集的研究,如果验证数据集的临床设置和患者资格标准与训练数据集分开指定,则验证数据仅被视为外部数据。这是为了确保验证数据不仅仅是原始大数据集的分割子样本,因为这会产生一种内部验证。诊断性队列设计指该研究首先定义临床环境和患者资格标准,然后连续或随机招募患者以进行特定诊断程序,例如AI算法应用。相反,诊断病例对照设计将分别收集疾病阳性和疾病阴性受试者。诊断病例对照设计容易出现疾病谱偏倚,这可能导致对诊断性能的夸大估计和非自然流行,从而产生诊断性能的不确定性。

另外,我们注意到每篇文章的主题领域(例如,放射学,病理学和眼科学)并将出版期刊分类为医学或非医学期刊组。这些期刊主要根据期刊引用报告(JCR)2017版本类别进行分类。对于未包括在JCR数据库中的期刊,如果期刊的范围/目标包括任何医学领域或主编是医生,我们会提及期刊网站并将其归类为医学。对于任何程度模糊或在两位独立评审员之间产生意见分歧的文章都在包括第三位评审员在内的共识会议上重新评估。

结果测量和统计分析

我们计算了进行外部验证的研究百分比。对于报告外部验证结果的研究,确定了涉及诊断队列的实验设计,包含多个机构以及外部验证的前瞻性数据收集的研究比例。使用Fisher精确检验对医学和非医学期刊的结果进行了比较。 p <0.05被认为是显着的。

结果

在去除PubMed MEDLINE和Embase之间的重叠后最初收集的2748篇文章中,最终有516篇文章符合条件(图1,表1)。


表2列出了具有每种实验设计的文章的比例,包括医学和非医学期刊的分类。 只有6%(516个中的31个)进行了外部验证。 所有外部验证研究均未采用所有三种实验设计,即诊断队列设计,包含多个机构和前瞻性数据收集。 医学和非医学期刊之间没有显着差异(表2)。


讨论

我们的研究结果显示,最近发表的研究报告了用于医学影像诊断分析的AI算法的性能,但没有严格验证AI算法临床性能的设计特征,这证实了主要期刊最近提出的担忧。我们的研究没有考虑人工智能研究的各种详细的方法学质量测量,而只是评估了主要的宏观研究。因此,AI算法临床验证的不足程度可能更为显著。

然而,应该指出的是,这些结果并不一定意味着已发表的研究各种方法设计不充分。本研究中使用的四个标准是旨在评估AI算法在实际临床表现的基本要求。对于仅仅研究技术可行性的研究来说,这些要求将是过度的。读者和研究者都应该区分概念验证技术可行性研究和验证AI临床表现的研究,并且应该避免错误地考虑不符合上述标准的研究结果作为临床验证的合理证据。

最近发表了一些相关的方法指南。我们怀疑在本研究中分析的大多数研究可能是在这些方法指南可用之前构思或执行的。因此,旨在评估医学AI算法的临床性能研究的实验设计可能在未来得到改善。

在我们的研究中没有直接解决但值得一提的另一个问题是:关于先验分析计划的透明度以及在验证AI算法的临床性能的研究中的所有结果的完整公布。

由于人工智能算法的表现可能因机构不同而有差别,一些研究人员或赞助商可能会倾向于选择性地报告有利的结果,这会导致漏报不利的结果。前瞻性登记研究包括先验分析计划,类似于干预临床试验的登记(例如,在https://clinicaltrials.gov),将有助于提高这些研究的透明度。已经提出了诊断测试准确性研究的前瞻性登记,其中包括用于验证AI性能的研究。学术期刊采用这一政策有助于提高验证AI算法临床表现的研究报告的透明度。

我们目前的研究有一些局限性。

首先,研究数据的时效性很重要,因为人工智能是一个快速发展的领域,许多新研究正在发表,我们研究结果的有效期可能很短。但是我们希望很快医学AI临床表现的研究设计取得实质性进展。尽管如此迅速的变化,我们的研究仍然是有意义的基线,可以进行比较以确定未来是否有任何改进,因为这里分析的大多数已发表的研究可能早于最近发布的相关方法指南。

其次,虽然本研究仅评估了AI诊断性能的研究报告,但AI的临床验证延伸到评估AI对患者预后的影响。然而,据我们所知,关于AI应用如何影响患者预后的研究很少,并且系统地审查已发表的研究是不可行的。

来源:雷锋网   作者:李雨晨

为你推荐

赛诺菲大中华区总裁施旺:八载全勤赴进博,以“中国方案”筑梦健康中国资讯

赛诺菲大中华区总裁施旺:八载全勤赴进博,以“中国方案”筑梦健康中国

赛诺菲长期看好中国市场的繁荣前景,对医疗健康领域的未来充满信心。

2025-11-10 10:24

“医药险协同聚力,让生命无惧风雨”,罗氏医药险生态联盟启动资讯

“医药险协同聚力,让生命无惧风雨”,罗氏医药险生态联盟启动

11月7日,在第八届中国国际进口博览会上,罗氏制药展台举行了“以患者为中心,聚力守护新生”为主题的医药险生态联盟仪式。

2025-11-10 09:56

华东医药FIC三重激动剂DR10624最新临床数据披露,降低甘油三酯达75%,减少肝脏脂肪达67%资讯

华东医药FIC三重激动剂DR10624最新临床数据披露,降低甘油三酯达75%,减少肝脏脂肪达67%

DR10624在治疗重度高甘油三酯血症(SHTG)的II期临床研究(“DR10624-201研究”)中取得的重要成果

2025-11-09 21:31

2025年世界互联网大会,华西医院与蚂蚁集团达成战略资讯

2025年世界互联网大会,华西医院与蚂蚁集团达成战略

11月8日,在2025年世界互联网大会乌镇峰会期间,四川大学华西医院与蚂蚁集团正式签署战略合作协议。

2025-11-09 20:43

雅培瞬感iCGM 高科技高标准亮相进博 多项专家共识发布 助力精准血糖管理资讯

雅培瞬感iCGM 高科技高标准亮相进博 多项专家共识发布 助力精准血糖管理

中国市场唯一通过国际最高标准认证的集成式持续葡萄糖监测系统(iCGM)

2025-11-09 14:14

Metsera同意与辉瑞达成合并,诺和诺德出局资讯

Metsera同意与辉瑞达成合并,诺和诺德出局

美东时间11月7日,总部位于纽约的Metsera公司宣布已与辉瑞达成合并协议,辉瑞同意以100亿美元收购该公司。

2025-11-09 00:27

国家药监局优化境外生产药品补充申请审评审批程序试点资讯

国家药监局优化境外生产药品补充申请审评审批程序试点

北京、天津、河北、辽宁、上海、江苏、浙江、安徽、江西、山东、广东、重庆、四川、陕西省。

2025-11-08 20:41

Pi3K新突破,皮下新生态,罗氏携手各界共见乳腺癌创新诊疗未来资讯

Pi3K新突破,皮下新生态,罗氏携手各界共见乳腺癌创新诊疗未来

罗氏制药中国召开“Pi3K新突破&皮下新生态——乳腺癌创新发布会”,乳腺癌管线创新靶向药物集体亮相进博舞台

2025-11-08 19:53

美敦力康辉亮相第八届进博会,AiBLE™数智生态加速进化拓维资讯

美敦力康辉亮相第八届进博会,AiBLE™数智生态加速进化拓维

作为连续八年参展进博的“全勤生”,美敦力康辉携AiBLETM数智创新生态重磅亮相,并以“智汇·新生态”为主题,集中展示自2023年AiBLE™首秀进博以来,其在数智创新、产业协作与...

2025-11-08 14:09

索诺瓦进博会亚洲首展峰力AI人工智能太极全能系列助听器, “双芯协同超算力”突破听力健康新想象资讯

索诺瓦进博会亚洲首展峰力AI人工智能太极全能系列助听器, “双芯协同超算力”突破听力健康新想象

全球同步,亚洲首发,中国首展,索诺瓦峰力强力推出AI人工智能太极全能系列助听器,开启AI超算力助听时代

2025-11-08 11:56

柯君医药口服减重新药CG-0416突破性临床前数据于ObesityWeek 2025上发布资讯

柯君医药口服减重新药CG-0416突破性临床前数据于ObesityWeek 2025上发布

展示出“下一代减重标杆药物”的巨大潜力

2025-11-08 09:33

诺和诺德“诺和关怀”发布鸿蒙版APP与减重专属版资讯

诺和诺德“诺和关怀”发布鸿蒙版APP与减重专属版

11月7日,第八届中国国际进口博览会期间,诺和诺德宣布2023年组建的“健康生态联盟”扩容升级,将与更多数字生态圈伙伴在生态融合、数据互联、技术共创方面展开深度合作。

2025-11-07 23:16

凯西罕见病事业部首秀进博会资讯

凯西罕见病事业部首秀进博会

凯西集团是一家以研发为基石、拥有九十年历史的意大利国际制药集团,覆盖呼吸道健康、罕见疾病和专科治疗三大领域,其专利数量在意大利药企中排名首位,公司每年投入超20%营收至...

2025-11-07 22:58

卒中知晓周于进博会启幕,Pipeline™持续助力中国脑血管疾病治疗创新资讯

卒中知晓周于进博会启幕,Pipeline™持续助力中国脑血管疾病治疗创新

美敦力神经介入部门以“深耕廿载·向美而行”为主题举办专场活动,并正式启动“卒中知晓周”倡导行动。

2025-11-07 22:48

辉瑞再拓“进博朋友圈”,引领肿瘤与罕见病诊疗高质量发展新格局资讯

辉瑞再拓“进博朋友圈”,引领肿瘤与罕见病诊疗高质量发展新格局

重磅产品与未来管线悉数亮相,同类第一、同类最优产品加速落地,持续释放创新药物临床价值

2025-11-07 21:01

更长守护,减负前行:拜耳艾力雅® 8mg中国上市,引领nAMD治疗新纪元资讯

更长守护,减负前行:拜耳艾力雅® 8mg中国上市,引领nAMD治疗新纪元

拜耳艾力雅® 8mg(阿柏西普8mg)全国上市媒体发布会隆重举行。

2025-11-07 19:58

诺华公司携手腾讯新闻《超级问诊》亮相进博会,多方合力破解心血管慢病“管理难题”资讯

诺华公司携手腾讯新闻《超级问诊》亮相进博会,多方合力破解心血管慢病“管理难题”

在第八届中国国际进口博览会现场,腾讯新闻联合诺华公司共同举办了《超级问诊》进博会特别场

2025-11-07 18:44

美敦力CathWorks实验室开放日丨CathWorks FFRangio系统正式发布!开启心血管诊疗智能新时代资讯

美敦力CathWorks实验室开放日丨CathWorks FFRangio系统正式发布!开启心血管诊疗智能新时代

2025年11月6日,第八届中国国际进口博览会期间,美敦力CathWorks实验室开放日重磅启幕

2025-11-07 18:08