韩国科研团队:超90%的医学影像AI论文未在临床环境进行严格验证

医疗器械 来源:雷锋网 作者:李雨晨
2019
03/18
10:03
雷锋网
作者:李雨晨
医疗器械

近年来,人工智能在医学中的应用令人兴奋,但当前的一个问题是人工智能算法缺乏适当的临床验证。近日,韩国泰安郡卫生中心的Dong Wook Kim和蔚山大学医学院放射学研究中心的Hye Young Jang、Kyung Won Kim、Youngbin Shin以及Seong Ho Park(通讯作者)等几位医学博士发表了一篇论文,来评估AI算法性能研究实验的设计特征,这些AI算法基于医学影像来提供诊断决策。

研究团队通过检索PubMed MEDLINE和Embase数据库,以确定2018年1月1日至2018年8月17日期间发表的原始研究论文, 评估所选择的文章有以下几个条件:

1、该研究是否使用外部验证而不是内部验证,并且在外部验证的情况下,是否收集验证数据

2、是否使用诊断队列设计而不是诊断病例对照设计

3、是否来自多个机构

4、是否以前瞻性的方式

这些是在现实世界中用于临床验证AI性能的基本方法学特征。

确定了符合上述标准的研究后,研究团队将出版期刊分为医学期刊和非医学期刊。 然后,比较医学和非医学期刊之间的结果。在516项符合条件的已发表研究中,只有6%(31项研究)进行了外部验证。31项研究均未采用所有三种实验设计条件:诊断队列设计,包含多个机构,以及用于外部验证的前瞻性数据收集。医学和非医学期刊之间没有显着差异。

研究团队得出的结论是:几乎所有在研究期间发表的医学影像AI算法性能的评估实验,都是为验证技术概念的可行性而设计,没有对AI算法在实际临床环境下的性能进行严格验证。

引言

由于深度学习技术的进步,人工智能(AI)在医学中的应用引起了很多关注。值得注意的是,人们对使用AI进行各种医学影像的诊断分析非常感兴趣,主要是通过卷积神经网络,一种被称为“计算机视觉”的深度学习技术。与任何其他医疗设备或技术一样,通过充分设计的研究确保患者的利益和安全,同时避免任何无意的危害,在临床实践中采用AI算法进行全面临床验证的重要性不容小觑。

值得注意的是,在本研究中使用术语“验证”来表示确认,就像在医学领域中使用的那样,而不是在机器学习领域中用作技术术语“算法调整”的意思。

AI技术的临床验证可以在不同的水平上进行:诊断性能,对患者结果的影响以及考虑 cost-benefit 和 cost-effectiveness 的社会效能(societal efficacy)。正确评估使用深度学习分析医学图像的高维AI算法的真实临床性能需要适当设计的外部验证。建议外部验证使用重新招募的患者或提供训练数据的机构以外的其他机构收集的足够大小的数据集,以充分代表AI所应用的现实临床环境中的目标患者表现谱(即患者人口统计学和疾病状态的所有相关变化)。

此外,使用来自多个外部机构的数据对验证非常重要,以验证算法的泛化能力,应对各种医院系统的预期变异性。复杂的数学/统计AI模型,例如分析医学影像的深度学习算法,需要大量的数据用于算法训练;制作和注释这种量纲的医学影像数据资源尤其紧张和困难。因此,开发此类AI算法的个体可能依赖于任何可用的数据(方法上称为便利病例 - 对照数据 convenience case-control data),尽管这些可能易于发生选择偏倚和人为疾病流行(artificial disease prevalence),并且可能不能很好地代表实际临床设置。由于AI算法的性能很大程度上取决于其训练数据,因此存在真正的风险,即AI算法在实际操作中可能表现不佳,并且在一个机构训练的算法在应用于另一个机构的数据时提供不准确的结论。

尽管人工智能在医学中的应用令人兴奋,但人工智能算法缺乏适当的临床验证似乎是当前的一个问题,这种现象被称为“数字例外论”(digital exceptionalism)。例如,计算机科学家通常会在“测试”数据集上评估AI算法的性能;然而,这些通常是原始数据集的随机子样本,因此,不可能对临床表现进行充分的外部验证。据我们所知,显示这一显著问题确切程度的具体数据很少。

本研究旨在评估最近发表的研究的实验设计,这些研究报告了分析医学影像的AI算法的性能,并确定研究设计是否适合于验证AI算法在实际临床中的表现。本研究中提到的研究实验设计对于验证AI的真实临床表现至关重要,但对于验证概念技术可行性研究而言则过多。由于并非每项关于使用AI进行医学诊断的研究都是为了验证实际的临床表现,本研究的目的并不是直截了当地判断已发表研究的方法学适用性。

材料和方法

文献检索与筛选

我们对PubMed MEDLINE和Embase数据库进行了全面搜索,以确定调查AI算法性能的原始研究文章,该算法通过分析医学影像来提供诊断决策(例如诊断或发现特定疾病,又或者是提供信息以根据特定疾病将患者分类为亚组疾病状态、亚型、严重程度、阶段、治疗反应、预后和风险)。我们使用以下搜索查询: (“artificial intelligence” OR “machine learning” OR “deep learning” OR “convolutional neural network”) 和 (diagnosis OR diagnostic OR diagnosing) 和 (accuracy OR performance OR “receiver operating” OR ROC OR AUC)。我们将检索时间限制为2018年,以获得及时的结果(文献检索更新至2018年8月17日)。印刷出版物和电子出版物都包括在内。

在删除两个数据库之间的重叠之后,由两名独立评审员筛选文章的资格。在一次会议上重新评估了任何程度模糊或在两位审稿人之间产生意见分歧的文章,并邀请了第三位审稿人来达成一致。案例报告、评论文章、社论、信件、评论和会议摘要/程序被排除在外。我们的检索仅限于人类类别和英语语言的研究。

我们将医学图像定义为放射图像和其他医学图像(例如,内窥镜图像,病理图像和皮肤图像),并且没有考虑任何在时间上绘制一维数据的线条图,例如,心电图和A超。研究调查了结合医学图像和其他类型临床数据的AI算法。没有考虑除直接诊断决策之外的图像相关任务的AI算法,例如图像分割,定量测量和图像采集/重建的增强。

数据提取

两位评审员通过以下标准评估了符合条件的文章的全文:

1、该研究是否使用外部验证而不是内部验证,并且在外部验证的情况下,是否收集验证数据

2、是否使用诊断队列设计而不是诊断病例对照设计

3、是否来自多个机构

4、是否以前瞻性的方式

这些是在实际操作中推荐用于AI性能临床验证的基本方法学特征。这些问题中得到更多“是”的答案,则算法性能的实际应用越普遍。如果一项研究以多种方式验证其AI性能,那么如果至少有一项分析使用了这些设计条件,则该研究对上述每个问题都会为“是”。我们宽泛地定义了“外部”,包括训练数据和验证数据来自不同机构,以及从同一机构但在不同时间收集训练和验证数据的情况,即使后者在严格意义上不被视为外部验证。

对于在同一机构收集训练和验证数据集的研究,如果验证数据集的临床设置和患者资格标准与训练数据集分开指定,则验证数据仅被视为外部数据。这是为了确保验证数据不仅仅是原始大数据集的分割子样本,因为这会产生一种内部验证。诊断性队列设计指该研究首先定义临床环境和患者资格标准,然后连续或随机招募患者以进行特定诊断程序,例如AI算法应用。相反,诊断病例对照设计将分别收集疾病阳性和疾病阴性受试者。诊断病例对照设计容易出现疾病谱偏倚,这可能导致对诊断性能的夸大估计和非自然流行,从而产生诊断性能的不确定性。

另外,我们注意到每篇文章的主题领域(例如,放射学,病理学和眼科学)并将出版期刊分类为医学或非医学期刊组。这些期刊主要根据期刊引用报告(JCR)2017版本类别进行分类。对于未包括在JCR数据库中的期刊,如果期刊的范围/目标包括任何医学领域或主编是医生,我们会提及期刊网站并将其归类为医学。对于任何程度模糊或在两位独立评审员之间产生意见分歧的文章都在包括第三位评审员在内的共识会议上重新评估。

结果测量和统计分析

我们计算了进行外部验证的研究百分比。对于报告外部验证结果的研究,确定了涉及诊断队列的实验设计,包含多个机构以及外部验证的前瞻性数据收集的研究比例。使用Fisher精确检验对医学和非医学期刊的结果进行了比较。 p <0.05被认为是显着的。

结果

在去除PubMed MEDLINE和Embase之间的重叠后最初收集的2748篇文章中,最终有516篇文章符合条件(图1,表1)。


表2列出了具有每种实验设计的文章的比例,包括医学和非医学期刊的分类。 只有6%(516个中的31个)进行了外部验证。 所有外部验证研究均未采用所有三种实验设计,即诊断队列设计,包含多个机构和前瞻性数据收集。 医学和非医学期刊之间没有显着差异(表2)。


讨论

我们的研究结果显示,最近发表的研究报告了用于医学影像诊断分析的AI算法的性能,但没有严格验证AI算法临床性能的设计特征,这证实了主要期刊最近提出的担忧。我们的研究没有考虑人工智能研究的各种详细的方法学质量测量,而只是评估了主要的宏观研究。因此,AI算法临床验证的不足程度可能更为显著。

然而,应该指出的是,这些结果并不一定意味着已发表的研究各种方法设计不充分。本研究中使用的四个标准是旨在评估AI算法在实际临床表现的基本要求。对于仅仅研究技术可行性的研究来说,这些要求将是过度的。读者和研究者都应该区分概念验证技术可行性研究和验证AI临床表现的研究,并且应该避免错误地考虑不符合上述标准的研究结果作为临床验证的合理证据。

最近发表了一些相关的方法指南。我们怀疑在本研究中分析的大多数研究可能是在这些方法指南可用之前构思或执行的。因此,旨在评估医学AI算法的临床性能研究的实验设计可能在未来得到改善。

在我们的研究中没有直接解决但值得一提的另一个问题是:关于先验分析计划的透明度以及在验证AI算法的临床性能的研究中的所有结果的完整公布。

由于人工智能算法的表现可能因机构不同而有差别,一些研究人员或赞助商可能会倾向于选择性地报告有利的结果,这会导致漏报不利的结果。前瞻性登记研究包括先验分析计划,类似于干预临床试验的登记(例如,在https://clinicaltrials.gov),将有助于提高这些研究的透明度。已经提出了诊断测试准确性研究的前瞻性登记,其中包括用于验证AI性能的研究。学术期刊采用这一政策有助于提高验证AI算法临床表现的研究报告的透明度。

我们目前的研究有一些局限性。

首先,研究数据的时效性很重要,因为人工智能是一个快速发展的领域,许多新研究正在发表,我们研究结果的有效期可能很短。但是我们希望很快医学AI临床表现的研究设计取得实质性进展。尽管如此迅速的变化,我们的研究仍然是有意义的基线,可以进行比较以确定未来是否有任何改进,因为这里分析的大多数已发表的研究可能早于最近发布的相关方法指南。

其次,虽然本研究仅评估了AI诊断性能的研究报告,但AI的临床验证延伸到评估AI对患者预后的影响。然而,据我们所知,关于AI应用如何影响患者预后的研究很少,并且系统地审查已发表的研究是不可行的。

来源:雷锋网   作者:李雨晨

为你推荐

德琪医药与K2 Therapeutics达成出海协议,首付款2000万美元资讯

德琪医药与K2 Therapeutics达成出海协议,首付款2000万美元

今日,德琪医药发布公告称,与K2 Therapeutics就ATG-106签订独家授权协议。

2026-06-22 15:04

境外生产药品上市后备案类变更问与答(一)资讯

境外生产药品上市后备案类变更问与答(一)

备案资料应当按照《已上市中药 化学药品 生物制品变更事项及申报资料要求》《已上市中药 化学药品 生物制品药学变更研究技术指导原则(试行)》《已上市化学药品和生物制品...

2026-06-22 13:51

英矽智能与SK生物制药达成最高25亿美元AI药物研发合作, 聚焦神经免疫疾病领域资讯

英矽智能与SK生物制药达成最高25亿美元AI药物研发合作, 聚焦神经免疫疾病领域

6月22日,英矽智能发布公告称,与SK生物制药公司达成一项研发合作。

2026-06-22 12:59

诺和诺德:司美格鲁肽“保护期”将持续至2027年4月资讯

诺和诺德:司美格鲁肽“保护期”将持续至2027年4月

近日,诺和诺德全球总裁兼首席执行官杜麦克(Mike Doustdar)首度明确表态:司美格鲁肽在中国的监管数据保护将持续至2027年第二季度,届时仿制药才能开始合法进入市场。

2026-06-21 13:42

取保候审,博瑞医药实控人涉嫌操纵证券市场案资讯

取保候审,博瑞医药实控人涉嫌操纵证券市场案

6月18日晚间,博瑞医药发布公告,公司于2026年6月18日收到公司实际控制人袁建栋先生通知,因涉嫌操纵证券市场案,根据《中华人民共和国刑事诉讼法》相关规定,苏州市公安局对袁...

2026-06-21 13:05

《中国阻塞性睡眠呼吸暂停公众认知调研报告》发布资讯

《中国阻塞性睡眠呼吸暂停公众认知调研报告》发布

OSA认知与诊疗缺口待补,专家呼吁推动早筛早诊

2026-06-21 11:28

第四批全国中成药集采与第二批接续采购中选结果资讯

第四批全国中成药集采与第二批接续采购中选结果

近日,全国中成药联合采购办公室正式发布《关于公布全国中成药采购联盟集中采购中选结果的通知》,备受业界关注的第四批全国中成药集中带量采购及第二批接续采购中选结果尘埃落定。

2026-06-20 21:08

科创板支持脑机接口、基因工程相关创新企业上市,已有企业申报资讯

科创板支持脑机接口、基因工程相关创新企业上市,已有企业申报

近日,上交所发布《上海证券交易所科创板企业发行上市申报及推荐暂行规定(征求意见稿)》,对外公开征求意见。

2026-06-19 22:12

又是一个父亲节,关注和做好前列腺癌早期筛查资讯

又是一个父亲节,关注和做好前列腺癌早期筛查

前列腺癌被称为中老年男性的隐形杀手——隐形在于早期几乎没有症状,杀手则在于部分恶性程度高的前列腺癌进展迅速,一旦发生转移,预后显著变差。

2026-06-19 14:59

低活跃预测不等于低风险,台风、飓风、强降雨和洪涝企业应做好哪些应对?资讯

低活跃预测不等于低风险,台风、飓风、强降雨和洪涝企业应做好哪些应对?

随着北半球夏季极端天气高发期到来,台风、飓风、强降雨和洪涝等风暴相关风险进入重点关注阶段。世界领先的健康和安全风险服务企业国际SOS提醒在全球运营的企业:风暴季准备的关...

2026-06-18 21:41

药石科技发布“绿色智能化学引擎”战略,强化下一代疗法CRDMO平台能力资讯

药石科技发布“绿色智能化学引擎”战略,强化下一代疗法CRDMO平台能力

CPHI China 2026期间,南京药石科技股份有限公司(股票代码:300725 SZ,以下简称“药石科技”)在上海举行集团战略发布会

2026-06-18 13:49

第二批全国中药饮片集采中选结果公示资讯

第二批全国中药饮片集采中选结果公示

6月16日,全国中药饮片联盟集中采购拟中选结果正式公布,根据公示结果信息,共有21465条拟中选信息,公示期至6月22日。

2026-06-18 10:42

因美纳在华推出移动式生信分析解决方案,推进蛋白质组学生态合作资讯

因美纳在华推出移动式生信分析解决方案,推进蛋白质组学生态合作

近日,因美纳正式推出“因美纳生信移动宝”,该生信分析解决方案采用移动式部署模式,旨在将DRAGEN™驱动的高性能算力直接送达科研与临床研究一线。同期,因美纳进一步强化其在...

2026-06-18 09:55

治疗早泄药物国内获批资讯

治疗早泄药物国内获批

6月15日,国家药监局药品批准证明文件送达信息显示,Plethora Solutions 和复星医药(600196 SH;02196 HK)联合申报的 5 1 类药物利多卡因丙胺卡因气雾剂获批上市,此为...

2026-06-17 21:36

新诺威名称变更为石药创新资讯

新诺威名称变更为石药创新

6月16日晚间,新诺威发布公告称,公司证券简称由新诺威变更为石药创新,证券代码“300765”保持不变,变更日期为2026年6月17日。

2026-06-17 09:13

第四届诺华中国患者日举办,照亮更有温度的患者支持生态资讯

第四届诺华中国患者日举办,照亮更有温度的患者支持生态

6月16日,第四届诺华中国患者日在上海成功举办。

2026-06-16 19:03

第106批仿制药参比制剂目录资讯

第106批仿制药参比制剂目录

经国家药品监督管理局仿制药质量和疗效一致性评价专家委员会审核确定,现发布仿制药参比制剂目录(第一百零六批)。

2026-06-16 16:18

武田制药公布Oveporexton新关键性研究数据资讯

武田制药公布Oveporexton新关键性研究数据

在第40届美国联合专业睡眠学会年会(SLEEP 2026)上公布的3期研究次要及探索性终点结果进一步显示,Oveporexton在广泛的日间及夜间症状方面带来改善

2026-06-16 12:58

兆科眼科硫酸阿托品滴眼液澳洲上市注册申请获受理资讯

兆科眼科硫酸阿托品滴眼液澳洲上市注册申请获受理

6月15日,兆科眼科发布公告称,公司就其用于减慢儿童近视加深疗法的硫酸阿托品滴眼液(0 02%剂量,产品代码:NVK002)提出的注册申请已获澳洲Therapeutic Goods Administrati...

2026-06-16 10:53

和铂医药和百图生科宣布联合成立AI医药公司资讯

和铂医药和百图生科宣布联合成立AI医药公司

6月15日,和铂医药和百图生科联合宣布,双方将建立全面战略合作伙伴关系,联合创立一家面向全球市场的新型AI管线研发公司MegaStream Techbio。

2026-06-16 10:25