近年来,人工智能在医学中的应用令人兴奋,但当前的一个问题是人工智能算法缺乏适当的临床验证。近日,韩国泰安郡卫生中心的Dong Wook Kim和蔚山大学医学院放射学研究中心的Hye Young Jang、Kyung Won Kim、Youngbin Shin以及Seong Ho Park(通讯作者)等几位医学博士发表了一篇论文,来评估AI算法性能研究实验的设计特征,这些AI算法基于医学影像来提供诊断决策。
研究团队通过检索PubMed MEDLINE和Embase数据库,以确定2018年1月1日至2018年8月17日期间发表的原始研究论文, 评估所选择的文章有以下几个条件:
1、该研究是否使用外部验证而不是内部验证,并且在外部验证的情况下,是否收集验证数据
2、是否使用诊断队列设计而不是诊断病例对照设计
3、是否来自多个机构
4、是否以前瞻性的方式
这些是在现实世界中用于临床验证AI性能的基本方法学特征。
确定了符合上述标准的研究后,研究团队将出版期刊分为医学期刊和非医学期刊。 然后,比较医学和非医学期刊之间的结果。在516项符合条件的已发表研究中,只有6%(31项研究)进行了外部验证。31项研究均未采用所有三种实验设计条件:诊断队列设计,包含多个机构,以及用于外部验证的前瞻性数据收集。医学和非医学期刊之间没有显着差异。
研究团队得出的结论是:几乎所有在研究期间发表的医学影像AI算法性能的评估实验,都是为验证技术概念的可行性而设计,没有对AI算法在实际临床环境下的性能进行严格验证。
引言
由于深度学习技术的进步,人工智能(AI)在医学中的应用引起了很多关注。值得注意的是,人们对使用AI进行各种医学影像的诊断分析非常感兴趣,主要是通过卷积神经网络,一种被称为“计算机视觉”的深度学习技术。与任何其他医疗设备或技术一样,通过充分设计的研究确保患者的利益和安全,同时避免任何无意的危害,在临床实践中采用AI算法进行全面临床验证的重要性不容小觑。
值得注意的是,在本研究中使用术语“验证”来表示确认,就像在医学领域中使用的那样,而不是在机器学习领域中用作技术术语“算法调整”的意思。
AI技术的临床验证可以在不同的水平上进行:诊断性能,对患者结果的影响以及考虑 cost-benefit 和 cost-effectiveness 的社会效能(societal efficacy)。正确评估使用深度学习分析医学图像的高维AI算法的真实临床性能需要适当设计的外部验证。建议外部验证使用重新招募的患者或提供训练数据的机构以外的其他机构收集的足够大小的数据集,以充分代表AI所应用的现实临床环境中的目标患者表现谱(即患者人口统计学和疾病状态的所有相关变化)。
此外,使用来自多个外部机构的数据对验证非常重要,以验证算法的泛化能力,应对各种医院系统的预期变异性。复杂的数学/统计AI模型,例如分析医学影像的深度学习算法,需要大量的数据用于算法训练;制作和注释这种量纲的医学影像数据资源尤其紧张和困难。因此,开发此类AI算法的个体可能依赖于任何可用的数据(方法上称为便利病例 - 对照数据 convenience case-control data),尽管这些可能易于发生选择偏倚和人为疾病流行(artificial disease prevalence),并且可能不能很好地代表实际临床设置。由于AI算法的性能很大程度上取决于其训练数据,因此存在真正的风险,即AI算法在实际操作中可能表现不佳,并且在一个机构训练的算法在应用于另一个机构的数据时提供不准确的结论。
尽管人工智能在医学中的应用令人兴奋,但人工智能算法缺乏适当的临床验证似乎是当前的一个问题,这种现象被称为“数字例外论”(digital exceptionalism)。例如,计算机科学家通常会在“测试”数据集上评估AI算法的性能;然而,这些通常是原始数据集的随机子样本,因此,不可能对临床表现进行充分的外部验证。据我们所知,显示这一显著问题确切程度的具体数据很少。
本研究旨在评估最近发表的研究的实验设计,这些研究报告了分析医学影像的AI算法的性能,并确定研究设计是否适合于验证AI算法在实际临床中的表现。本研究中提到的研究实验设计对于验证AI的真实临床表现至关重要,但对于验证概念技术可行性研究而言则过多。由于并非每项关于使用AI进行医学诊断的研究都是为了验证实际的临床表现,本研究的目的并不是直截了当地判断已发表研究的方法学适用性。
材料和方法
文献检索与筛选
我们对PubMed MEDLINE和Embase数据库进行了全面搜索,以确定调查AI算法性能的原始研究文章,该算法通过分析医学影像来提供诊断决策(例如诊断或发现特定疾病,又或者是提供信息以根据特定疾病将患者分类为亚组疾病状态、亚型、严重程度、阶段、治疗反应、预后和风险)。我们使用以下搜索查询: (“artificial intelligence” OR “machine learning” OR “deep learning” OR “convolutional neural network”) 和 (diagnosis OR diagnostic OR diagnosing) 和 (accuracy OR performance OR “receiver operating” OR ROC OR AUC)。我们将检索时间限制为2018年,以获得及时的结果(文献检索更新至2018年8月17日)。印刷出版物和电子出版物都包括在内。
在删除两个数据库之间的重叠之后,由两名独立评审员筛选文章的资格。在一次会议上重新评估了任何程度模糊或在两位审稿人之间产生意见分歧的文章,并邀请了第三位审稿人来达成一致。案例报告、评论文章、社论、信件、评论和会议摘要/程序被排除在外。我们的检索仅限于人类类别和英语语言的研究。
我们将医学图像定义为放射图像和其他医学图像(例如,内窥镜图像,病理图像和皮肤图像),并且没有考虑任何在时间上绘制一维数据的线条图,例如,心电图和A超。研究调查了结合医学图像和其他类型临床数据的AI算法。没有考虑除直接诊断决策之外的图像相关任务的AI算法,例如图像分割,定量测量和图像采集/重建的增强。
数据提取
两位评审员通过以下标准评估了符合条件的文章的全文:
1、该研究是否使用外部验证而不是内部验证,并且在外部验证的情况下,是否收集验证数据
2、是否使用诊断队列设计而不是诊断病例对照设计
3、是否来自多个机构
4、是否以前瞻性的方式
这些是在实际操作中推荐用于AI性能临床验证的基本方法学特征。这些问题中得到更多“是”的答案,则算法性能的实际应用越普遍。如果一项研究以多种方式验证其AI性能,那么如果至少有一项分析使用了这些设计条件,则该研究对上述每个问题都会为“是”。我们宽泛地定义了“外部”,包括训练数据和验证数据来自不同机构,以及从同一机构但在不同时间收集训练和验证数据的情况,即使后者在严格意义上不被视为外部验证。
对于在同一机构收集训练和验证数据集的研究,如果验证数据集的临床设置和患者资格标准与训练数据集分开指定,则验证数据仅被视为外部数据。这是为了确保验证数据不仅仅是原始大数据集的分割子样本,因为这会产生一种内部验证。诊断性队列设计指该研究首先定义临床环境和患者资格标准,然后连续或随机招募患者以进行特定诊断程序,例如AI算法应用。相反,诊断病例对照设计将分别收集疾病阳性和疾病阴性受试者。诊断病例对照设计容易出现疾病谱偏倚,这可能导致对诊断性能的夸大估计和非自然流行,从而产生诊断性能的不确定性。
另外,我们注意到每篇文章的主题领域(例如,放射学,病理学和眼科学)并将出版期刊分类为医学或非医学期刊组。这些期刊主要根据期刊引用报告(JCR)2017版本类别进行分类。对于未包括在JCR数据库中的期刊,如果期刊的范围/目标包括任何医学领域或主编是医生,我们会提及期刊网站并将其归类为医学。对于任何程度模糊或在两位独立评审员之间产生意见分歧的文章都在包括第三位评审员在内的共识会议上重新评估。
结果测量和统计分析
我们计算了进行外部验证的研究百分比。对于报告外部验证结果的研究,确定了涉及诊断队列的实验设计,包含多个机构以及外部验证的前瞻性数据收集的研究比例。使用Fisher精确检验对医学和非医学期刊的结果进行了比较。 p <0.05被认为是显着的。
结果
在去除PubMed MEDLINE和Embase之间的重叠后最初收集的2748篇文章中,最终有516篇文章符合条件(图1,表1)。
表2列出了具有每种实验设计的文章的比例,包括医学和非医学期刊的分类。 只有6%(516个中的31个)进行了外部验证。 所有外部验证研究均未采用所有三种实验设计,即诊断队列设计,包含多个机构和前瞻性数据收集。 医学和非医学期刊之间没有显着差异(表2)。
讨论
我们的研究结果显示,最近发表的研究报告了用于医学影像诊断分析的AI算法的性能,但没有严格验证AI算法临床性能的设计特征,这证实了主要期刊最近提出的担忧。我们的研究没有考虑人工智能研究的各种详细的方法学质量测量,而只是评估了主要的宏观研究。因此,AI算法临床验证的不足程度可能更为显著。
然而,应该指出的是,这些结果并不一定意味着已发表的研究各种方法设计不充分。本研究中使用的四个标准是旨在评估AI算法在实际临床表现的基本要求。对于仅仅研究技术可行性的研究来说,这些要求将是过度的。读者和研究者都应该区分概念验证技术可行性研究和验证AI临床表现的研究,并且应该避免错误地考虑不符合上述标准的研究结果作为临床验证的合理证据。
最近发表了一些相关的方法指南。我们怀疑在本研究中分析的大多数研究可能是在这些方法指南可用之前构思或执行的。因此,旨在评估医学AI算法的临床性能研究的实验设计可能在未来得到改善。
在我们的研究中没有直接解决但值得一提的另一个问题是:关于先验分析计划的透明度以及在验证AI算法的临床性能的研究中的所有结果的完整公布。
由于人工智能算法的表现可能因机构不同而有差别,一些研究人员或赞助商可能会倾向于选择性地报告有利的结果,这会导致漏报不利的结果。前瞻性登记研究包括先验分析计划,类似于干预临床试验的登记(例如,在https://clinicaltrials.gov),将有助于提高这些研究的透明度。已经提出了诊断测试准确性研究的前瞻性登记,其中包括用于验证AI性能的研究。学术期刊采用这一政策有助于提高验证AI算法临床表现的研究报告的透明度。
我们目前的研究有一些局限性。
首先,研究数据的时效性很重要,因为人工智能是一个快速发展的领域,许多新研究正在发表,我们研究结果的有效期可能很短。但是我们希望很快医学AI临床表现的研究设计取得实质性进展。尽管如此迅速的变化,我们的研究仍然是有意义的基线,可以进行比较以确定未来是否有任何改进,因为这里分析的大多数已发表的研究可能早于最近发布的相关方法指南。
其次,虽然本研究仅评估了AI诊断性能的研究报告,但AI的临床验证延伸到评估AI对患者预后的影响。然而,据我们所知,关于AI应用如何影响患者预后的研究很少,并且系统地审查已发表的研究是不可行的。
来源:雷锋网 作者:李雨晨
为你推荐
资讯 泽安生物完成3800万美元融资,加速推进“髓系细胞衔接器”免疫治疗管线
本轮融资由高瓴创投(GL Ventures)领投,一家国际主权财富基金大额跟投,博裕创投、五源资本、蓝驰创投等多家现有股东亦追加投资
2026-05-07 11:07
资讯 拜耳asundexian(BAY 2433334片)用于降低缺血性卒中或短暂性脑缺血发作成人患者的卒中(复发)风险的注册申请获国家药品监督管理局药品审评中心受理
用于降低缺血性卒中或短暂性脑缺血发作(TIA)成人患者的 卒中(复发)风险,不包含心源性栓塞性卒中患者”的上市申请已获国家药品监督管理局药品审评中心受理。
2026-05-07 10:48
资讯 全球首个CDK2/4/6抑制剂获批第二个适应症
5月6日,中国生物制药发布公告,下属企业正大天晴自主研发的库莫西利胶囊(商品名:赛坦欣)获得国家药品监督管理局批准,联合氟维司群用于激素受体(HR)阳性、人表皮生长因子...
2026-05-06 18:13
资讯 蚂蚁阿福启动“健康中国体检关怀行动”,为1亿人免费解读体检报告
春季是传统的体检季,可很多人拿到体检报告却犯了难。一项5000名网友参与的调研显示,80%的受访者表示体检报告没有得到详细讲解,也不知道检后该怎么做;75%的受访者没有按体检...
2026-05-06 17:13
资讯 第28个世界哮喘日:儿童哮喘早识别、规范治疗,守护患儿健康呼吸
进入5月,气温波动、花粉增多、呼吸道病毒活跃,哮喘也随之进入急性发作的高峰期。今年5月5日,恰逢第28个“世界哮喘日”——以“确保每位
2026-05-05 20:33
资讯 康方生物授权的Summit美股大跌
2025年4月30日,美股上市公司Summit Therapeutics对外公布截至 2026 年 3 月 31 日第一季度财务业绩及业务进展,其中最受关注的无疑是从康方生物(09926 HK)获得授权的...
2026-05-05 20:02
资讯 对比,生物医学新技术临床转化应用审批工作规范征求意见稿与正式稿有哪些不同?
4月30日,国家卫健委官网正式发布《生物医学新技术临床转化应用审批工作规范(试行)》,与4月19日发布的征求意见稿有哪些变化?
2026-05-05 10:58
资讯 生物医学新技术与药品、医疗器械的界定
4月30日,国家卫健委官网发布《生物医学新技术与药品、医疗器械界定指导原则(暂行)》。对于生物医学新技术与药品、医疗器械的操作边界进行指导。
2026-05-05 10:51
资讯 又一家药企被取消国家药品集采中选资格
4月30日,国家组织药品联合采购办公室发布公告,取消哈尔滨力强药业有限责任公司洛索洛芬钠凝胶贴膏中选资格并将该企业列入违规名单。
2026-04-30 15:19
资讯 国家药监局原副局长陈时飞被判14年
4月29日,上海市第二中级人民法院一审公开宣判国家药品监督管理局原党组成员、副局长陈时飞受贿案,对被告人陈时飞以受贿罪判处有期徒刑14年,并处罚金人民币400万元;扣押在案...
2026-04-30 10:08
资讯 微滔生物完成超 5000 万美元 A 轮、A + 轮融资,专注体内 CAR-T 细胞疗法赛道
本轮融资由正心谷资本与德诚资本分别领投,OrbiMed(奥博资本)、汉康资本、卫材创新风投基金、建发新兴投资等知名机构跟投,老股东启明创投、顺禧资本、杏泽资本持续加码
2026-04-29 13:21
资讯 “A to H 18A第一股”诞生!迈威生物正式登陆香港联交所主板
2026年4月28日,迈威(上海)生物科技股份有限公司(以下简称“迈威生物”,A股代码:688062 SH,港股代码:02493 HK)在香港联合交易所主板正式挂牌上市,成为首家“A to H”的18A上市公司。
2026-04-28 19:22
资讯 全面接轨国际,药物临床试验质量管理规范再升级
根据国家药监局发布的2025年第125号公告,自2026年3月31日后实施的药物临床试验,均适用《E6(R3):药物临床试验质量管理规范技术指导原则》(下称 ICH E6(R3))。
2026-04-28 19:13
资讯 百济神州引入PD-1/CTLA-4/VEGF-A三抗
4月28日,百济神州发布公告称,2026年4 月 24 日,百济神州有限公司的全资子公司广州百济神州生物制药有限公司与华辉安健(北京)生物科技有限公司签订了一份《独家选择权、...
2026-04-28 09:49









