近日,汕头大学·香港中文大学联合汕头国际眼科中心陈浩宇教授团队和新加坡科技研究局付华柱研究员团队合作在Cell子刊《Cell Reports Medicine》(影响因子11.7)上发表最新研究成果《Enhancing AI Reliability: A Foundation Model with Uncertainty Estimation for Optical Coherence Tomography-based Retinal Diseases Diagnosis》(结合不确定性估计技术的基础模型在基于光相干断层扫描的视网膜疾病诊断中增强了人工智能的可靠性)。这是该团队继去年发表于《Nature Communications》(影响因子14.7)和今年年中发表于《Medical Image Analysis》(影响因子10.7)之后的第三篇关于医学人工智能可靠性的论文。 视网膜疾病是常见的不可逆性致盲眼病,早期诊断和及时治疗是防止患者视力丧失的关键。既往研究表明,人工智能(AI)联合光学相干断层扫描(OCT)图像可以辅助诊断视网膜疾病,且在多种常见眼底病的分类任务中取得了较好的性能。然而,传统AI模型仍面临无法表达预测结果的置信度、无法检测未见过的分布外数据(Out of distribution, OOD)的问题,导致医生无法对模型的可靠性进行判断,容易出现误诊和漏诊,从而产生医疗风险,限制了AI技术在真实世界OCT诊断临床场景的应用。 为解决上述问题,研究团队使用正常眼底和15种视网膜疾病的82813张OCT图像,开发了一个基于不确定性估计的基础模型(Foundation Model with Uncertainty Estimation, FMUE)。该模型不仅能够输出预测结果,还能提供相应的不确定性分数,以表明预测结果的置信度。结合最佳阈值策略,模型通过输出高于阈值的不确定性分数,提醒医生对这些高不确定性样本进行二次评估,从而减少误诊和漏诊。 为评估FMUE模型对16种视网膜OCT图像的疾病诊断能力,本研究在多个测试集上进行性能测试,并与其他多种AI模型(RETFound、Swin transformer、Ensemble、UIOS和GPT-4V)以及30位不同年资的眼科医生进行了比较。结果显示,在内部测试集中,FMUE模型的平均F1分数达到95.74%,高于其他多种AI算法(92.03%-93.66%)。移除不确定性分数高于阈值的样本后,模型的分类性能进一步提升,F1分数提升至97.44%。在两个外部测试集(来自外单位和公开测试集)中,FMUE模型也实现了类似的优异性能。在人机比赛中,FMUE模型的诊断性能优于GPT-4V模型,且超越了各个年资眼科医生的平均诊断水平。而且进一步的分析显示,不确定性分数超过阈值的样本被模型预测错误的风险更高。 此外,研究团队纳入了来自多个临床中心和公开数据集的非目标类别图像和低质量数据,建立了三个OOD数据集,用于检验模型检出OOD数据的能力。结果显示,FMUE模型对OOD样本的检出率超过85%,优于Ensemble和UIOS模型。 综上所述,本研究构建了基于不确定性估计的基础模型FMUE,在视网膜OCT图像中对15种眼底病和正常眼底的诊断准确性高于其他多种AI模型和不同年资的眼科医生。该模型不仅能通过输出不确定性分数来表达其预测结果的置信度,还能检测出训练过程中未见过的OOD数据,可为真实世界中开放集OCT图像的自动检测提供一种更准确、更可靠的方法。 研究成果亮点如下:一是解决了开放集OCT图像的检测问题。传统AI算法在开放集OCT图像的检测应用中主要存在以下两个问题——首先,传统模型的建立往往基于闭合集,即测试类别和训练类别是完全一致的。然而,在真实世界的应用中,模型不可避免地会遇到训练过程中未见过的数据,称为分布外数据(OOD),例如训练类别以外的疾病或低质量图像等。在这种情况下,传统模型会将OOD数据误判为某种训练类别,容易导致误诊和漏诊。其次,传统AI模型仅能提供预测的诊断结果,而无法表达其对预测结果的置信度,导致医生无法对模型的可靠性进行判断。本研究从传统AI模型在开放环境应用中面临的挑战入手,将不确定性估计理论引入OCT图像多分类任务,构建了FMUE模型,使得模型在提供诊断结果的同时表达相应的不确定性分数,以应对开放集OCT图像检测问题,促进AI技术在真实世界中的应用。 二是算法应用创新。与其他多种AI算法相比,FMUE模型也有很多优点。与RETFound和Swin transformer模型相比,FMUE模型的主要优势在于其集成了不确定性估计理论,使得模型不仅能够提供诊断结果,还能通过输出不确定性分数来表达预测结果的不确定性。与UIOS模型相比,FMUE模型将变换器架构作为主干网络,依赖自注意机制捕捉图像的全局特征,这种方式可能更有利于OCT图像的特征提取。与Ensemble模型相比,FMUE在单次运行中即可获得相应的不确定性分数,而无需经多次运行来估算不确定性,执行效率更高。 三是医工协作推动AI领域重大突破。这一研究项目成功实现了医学与工科的深度融合,在整个研究过程中,包括实验的设计、实施和论文撰写阶段,都由医学和工科团队紧密合作,通过多次反复的讨论和修改,确保每一步都得以优化和完善。这不仅凸显了跨学科合作的重要性,也展示了医工协作在推动人工智能技术创新中的巨大潜力。 论文由汕头大学·香港中文大学联合汕头国际眼科中心陈浩宇教授和新加坡科技研究局付华柱研究员作为共同通讯作者,安徽医科大学彭圆圆副教授、汕头大学·香港中文大学联合汕头国际眼科中心林艾迪博士生、新加坡国立大学王猛博士后作为共同第一作者,汕头国际眼科中心林田博士生、史庭坤副主任医师、由30位眼科医生组成的OCT阅片组、全国多位眼科教授、苏州大学陈新建教授、新加坡国立大学程景煜教授等作为共同作者。 该研究得到了国家重点研发计划、A*STAR职业发展基金、国家自然科学基金、广东省教育厅等项目的资助。 来源:汕头国际眼科中心 文字:林艾迪 |