npj digital medicine | 当AI知道自己不知道时”举手”:不确定性量化破解脑肿瘤自动化监测的临床落地瓶颈

★ 星标「医工学人」,第一时间获取医工交叉领域新闻动态


深度学习已能在脑部MRI上以超人般的速度勾勒肿瘤边界,然而“黑箱”式的确定性输出让临床医生始终不敢全然托付。2026年6月19日,npj digital medicine发布了一篇题为 “Segmenting with Confidence through Uncertainty Quantification for Brain Tumor Imaging”(通过不确定性量化实现脑肿瘤影像的置信分割)的论文,加州大学旧金山分校(UCSF)与杜克大学的研究团队给出了一套新解法——证据深度学习集成框架。它不仅将脑膜瘤分割的Dice系数推至0.95,更为每一个体素、每一次体积测量配上了经过校准的95%可信区间。模型在影像模糊或解剖复杂处“犹豫”时,会清晰标出自己哪里不确定、为什么不确定。这或许正是医学AI从实验室走向诊室的那把钥匙。

文章图片预览

Figure 1 | 证据深度学习集成框架的概念概述。一幅T1增强MRI图像由M=5个模型组成的集成处理。每个模型逐体素输出一个Beta分布的参数,表示肿瘤存在的概率。这些独立的分布被组合成一个混合模型,从中推导出最终的后验概率,用于分类每个体素并量化不确定性。
Figure 2 | 异质EDL集成在测试集(N=68)上的定量评估。(A)按真实肿瘤体积分层的Dice系数分布。模型在不同肿瘤尺寸范围内均保持高性能。少数零Dice点对应的是具有挑战性或分布外病例:绿点代表最困难的示例(难度评级9/10),其余为小型肿瘤(<4 cm³)。(B)预测体积与真实体积对比,按放射科医生评估的难度着色。误差线表示通过EDL框架推导的95%可信区间。可信区间在较小和较困难的肿瘤上变宽,展示了适当的不确定性校准。
Figure 3 | 内部和外部测试集上各方法区间锐度对比。箱线图显示了MC Dropout(p=0.2, p=0.5)、同质EDL和异质EDL的体积归一化95%可信区间宽度分布。在内部测试集上,MC Dropout产生的区间最锐利(中位数更低、离散度更紧),而两种EDL变体均产生更宽的区间。在外部测试集上,区间宽度保持了相同的排序。
Figure 4 | 四个具有挑战性(难度评分≥7/10,由神经放射科医生评定)的脑膜瘤病例(A–D)的不确定性感知分割结果的定性可视化。每个面板展示了在3D输入体积的一个代表性切片上,预测不确定性分解为认知(epistemic)和偶然(aleatoric)分量的空间分布。偶然不确定性系统性地集中在肿瘤边界,与内在的体素级模糊区域对齐,而认知不确定性则呈现更多的空间聚集性,常定位于解剖模糊区域,如肿瘤-脑界面。病例A的肿瘤因累及邻近的上矢状窦(其增强方式与脑膜瘤相似)而具有挑战性。病例B的肿瘤因累及邻近的海绵窦(其增强方式与脑膜瘤相似)而具有挑战性。病例C为术后脑MRI,显示残留/复发性脑膜瘤,但部分增强结构代表正常血管或术后瘢痕组织,使得与残留肿瘤的区分变得困难。病例D的肿瘤沿硬脑膜反折向蝶顶窦延伸,难以与肿瘤边界区分。
Figure 5 | 四种脑膜瘤MRI(A–D)在图像退化条件下分割稳健性与不确定性分解的定性可视化。每种MRI在三种成像条件下展示:原始、运动模糊和低分辨率,各列分别展示(i)预测与真实标注叠加、(ii)偶然不确定性、(iii)认知不确定性。人工参考标准分割以蓝色显示,模型预测以绿色叠加。对于较简单的病例(如病例A),分割和不确定性图在退化输入下均保持稳定,表明模型在图像退化条件下仍具有强置信度。对于病例C和D,退化导致不确定性明显增加而未显著影响分割精度,与模型在保持性能的同时表达更高不确定性的预期一致。相比之下,病例B是一个特别具有挑战性的海绵窦脑膜瘤病例,涉及复杂解剖结构,在运动模糊和低分辨率下既表现出升高的不确定性,也表现出明显的分割精度下降。这些结果确认了预期的关系:随着现实世界图像伪影增加任务难度,模型变得更加不确定,反映了预测置信度的适当校准。
Figure 6 | 四个代表性临床场景下,经校准的 95% 可信区间所展示的脑膜瘤体积纵向演变。病例 1 展示了肿瘤在短期快速生长后,经放疗后体积缩小。放疗后的体积落到了治疗前可信区间之外,这与真实的治疗响应相符。病例 2 展示了肿瘤在 150 个月内持续生长,随后接受了肿瘤全切术、无残留,术后体积为零,反映了确定性的结构改变。病例 3 展示了肿瘤部分切除后保持稳定,后续的可信区间相互重叠,与疾病稳定状态相符。病例 4 展示了肿瘤在 25 个月的缓慢生长后接受了次全切除术,体积减小幅度超出了不确定性边界,提示具有临床意义的变化。所有这些病例均与神经放射科医生的评估一致。

1. 临床刚需与技术失信之间的鸿沟

脑膜瘤是最常见的原发性脑肿瘤,占所有颅内肿瘤的三分之一以上。对于这类生长缓慢但可能压迫关键脑区的肿瘤,治疗决策高度依赖于影像学上的精准监测。然而,临床实践中评估肿瘤变化的“金标准”——无论是主观判读还是简化的二维测量(如RANO标准)——都难以捕捉真实的肿瘤负荷。大量研究表明,三维体积分析能提供远为精准的进展评估,但手动三维勾画的耗时与观察者间变异使其难以大规模推广。

深度学习在生物医学图像分割任务上已展现出令人瞩目的性能。在脑肿瘤分割领域,nnU-Net等自配置框架几乎成了“开箱即用”的行业基准。然而,一个吊诡的局面始终存在:模型的分割精度越高,临床医生对它的信任度反而可能越低。

这并非悖论。标准的确定性分割模型输出一个固定的二值掩膜,它掩盖了预测本身所固有的不确定性。当模型将某个体素标记为“肿瘤”时,它不会告诉你这个判断的可信度是99%还是51%。对于临床决策而言,这种信息缺失是致命的——尤其是在肿瘤边界毗邻 eloquent brain regions(功能区)、术后改变与残留肿瘤难以区分、或不同时间点影像质量参差不齐的场景下。小至数毫米的分割偏差,可能直接影响放疗靶区的勾画、手术方案的制定,或是对肿瘤进展与稳定的误判。

“临床采用AI的一大障碍是自动化分割中缺乏经过校准的不确定性,这限制了临床医生的信任。”
—— 引自论文摘要

与此同时,人类专家之间的分割变异是客观存在的,但这种变异在常规临床中既未被量化、也未被体系化。换言之,临床医生习惯了不确定性,但他们无法接受一个对自己的不确定性保持沉默的AI。 这就构成了当前医学影像AI落地中最尖锐的矛盾之一:能力过剩,而可信度不足。

2. 不确定性量化如何重塑技术底座

这篇研究的核心贡献,并非简单地在现有分割网络上做增量改进,而是从建模哲学的层面重构了深度学习对“知识”的表达方式。

从确定性输出到概率分布

传统分割网络(如标准SegResNet)在最后一层使用softmax激活,为每个体素输出一个“肿瘤/非肿瘤”的确定性概率。这个概率本身并不包含关于“这个概率有多可靠”的元信息。

研究团队引入了证据深度学习(Evidential Deep Learning, EDL) 框架,其核心创新在于:模型不再直接输出分类概率,而是输出一个Beta分布(二元分类场景下Dirichlet分布的特例)的参数。简言之,网络输出的是一对证据值 (e₀, e₁),经变换后构成Beta分布的参数 (α₀, α₁)。该分布的均值代表肿瘤存在概率,而其方差则直接量化了该预测的不确定性。

类比而言:传统模型像一个只会给出答案的学生,不管对错都斩钉截铁;而EDL模型像一个会写解题过程的学生,不仅给出答案,还会表达“这道题我有八成把握,但中间两步我有些犹豫”。

集成:让“专家委员会”产生共识

单个EDL模型仍然可能过度自信。研究团队采用了五模型集成(Ensemble) 策略,并有意地在数据层面(五折交叉验证+自助采样)、模型层面(不同随机初始化+数据增强序列)、目标层面(KL散度惩罚项权重与退火策略差异化)三个维度上引入多样性。

更关键的一步是:团队对比了两种集成配置——

  • 同质集成:五个架构完全相同的SegResNet;
  • 异质集成:两个SegResNet、两个SWIN UNETR、一个DiNTS的组合。

异质集成的设计依据在于:不同架构具有不同的归纳偏置(inductive bias),它们可能在不同的失败模式下犯错。 当这些“视角各异”的专家共同审视同一张影像时,共识区域的置信度更高,分歧区域的偏差也能被系统性地捕捉。

不确定性的二元分解:偶然 vs. 认知

研究将总预测方差优雅地分解为两项(公式5):

  • 偶然不确定性(Aleatoric-like):源于数据本身的固有噪声和体素边界模糊性(如部分容积效应)。这种不确定性即使训练数据无限多也无法消除,它是任务本身的难度属性。
  • 认知不确定性(Epistemic-like):源于模型对未见过的解剖结构或分布外数据的“知识匮乏”。这种不确定性随着训练数据增加而可被缩减。

这组分解在临床可视化中产生了直观的价值:偶然不确定性往往集中于肿瘤边界(物理上的模糊地带),而认知不确定性则更多聚类于解剖复杂区域,如肿瘤与硬脑膜静脉窦的交界、术后改变与残留肿瘤的重叠区——这些恰恰是神经放射科医生在日常阅片中最需要警惕、也最耗时的地方。

新旧范式对比:

维度
确定性分割(传统方法)
EDL集成框架(该研究)
输出形式
固定二值掩膜
每个体素的Beta分布
不确定性表达
体素级 + 体积级可信区间
错误检测能力
无,无法预知自己的失败
不确定性-误差强相关(R²达0.68)
临床可解释性
低(黑箱)
高(可区分“数据模糊”与“模型无知”)
部署推理成本
1次前向传播
1次前向传播(与单模型相同,优于MC Dropout的20次)
体积置信区间
经校准的95%可信区间(覆盖率92.8%)

3. 高精度与高可信能否兼得?

研究的验证体系横跨三个独立队列,总样本量超过千例,其中外部验证集包含来自杜克大学的353名患者,有效检验了跨机构泛化能力。

分割精度:不降反升

一个常见的顾虑是:引入不确定性量化是否会牺牲分割精度?答案是否定的

  • • 同质EDL集成(五SegResNet)在内部测试集上达到中位Dice 0.95
  • • 异质EDL集成中位Dice 0.93
  • • 对比基准——在相同数据上训练的nnU-Net v2——中位Dice仅为0.77(p < 0.05)

值得注意的是,同质集成在Dice上略优于异质集成,但异质集成在校准能力和不确定性-误差相关性上表现更优。这一对比本身就是一个有价值的科学发现:追求极致的精度与追求可靠的不确定性估计,可能是两个需要不同优化方向的目标。

校准质量:可信区间真实反映误差

研究的核心评价指标是经验覆盖率(Empirical Coverage)——即真实肿瘤体积落在模型预测的95%可信区间内的比例。一个完美校准的系统,其经验覆盖率应接近95%。

方法
经验覆盖率
分割误差R²
体积误差R²
MC Dropout (p=0.2)
66%
0.63
0.54
MC Dropout (p=0.5)
72%
0.65
0.55
同质EDL集成
87%
0.61
0.53
异质EDL集成
92.8%
0.68
0.40

异质EDL集成以92.8%的覆盖率最接近理想校准。作为对比,MC Dropout方法虽然区间更窄(更“锐利”),但覆盖率仅66-72%,属于典型的过度自信(overconfident)。在临床场景中,过度自信意味着漏报风险——当一个模型声称“95%可信”而真实覆盖率只有七成时,医生基于此所做的“稳定/进展”判断将面临不可接受的误判概率。

外推泛化:跨机构仍保持稳健

在杜克大学外部验证集上(353名患者,影像采集协议、扫描设备、患者人口学特征均不同):

  • • 同质EDL集成中位Dice 0.92(与内部测试集0.95无显著性差异,p=0.57)
  • • 异质EDL集成中位Dice 0.93(p=0.71)

这表明该框架具备良好的跨机构通用性,无需针对新中心进行微调即能保持高水准。

4. 从“辅助读图”到“决策伙伴”

这项研究的临床意义远超“又一个高精度分割模型”。其真正的价值在于赋予了AI与临床医生之间建立信任关系的基础设施

场景一:纵向随访中的“测量噪声”消除

脑膜瘤患者通常需要数年的影像随访。临床决策的关键问题是:体积变化3%是真实生长还是测量波动?研究中展示的纵向案例(Figure 6)令人印象深刻:通过为每个时间点的体积测量配准95%可信区间,系统能清晰地区分“超出测量噪声的真实变化”与“在可信区间内的稳定性”。在病例1中,放疗后体积降至放疗前可信区间之外,这为“治疗响应”提供了统计学证据;而在病例3中,术后连续两次测量的可信区间相互重叠,支持“疾病稳定”的判断。

场景二:不确定性图指导人工复核

传统的AI辅助阅片流程是“模型画圈→医生审核”。但医生面对一个固定掩膜时,往往无法迅速判断哪里最需要关注。本研究的不确定性图(Figure 4)将认知不确定性高亮标记于解剖模糊区域(如肿瘤-静脉窦界面),实质上为医生提供了一份“注意力地图”。这有望将阅片效率从“逐层筛查”提升为“重点复核”。

场景三:图像质量退化的自动预警

研究中刻意引入运动模糊和低分辨率退化的实验(Figure 5)揭示了一个更细腻的机制:在简单病例(边界清晰、对比度高)中,即使图像退化,不确定性仍保持低位;而在复杂病例中,退化会显著放大不确定性信号。这相当于为影像质控体系嵌入了一个“自动报警器”——当不确定性异常升高时,可能提示图像质量不足或病例超出模型能力范围,应当触发重新扫描或人工深度介入。

总结与思考

这项研究无疑代表了医学影像AI从“实验室精度竞赛”走向“临床可信部署”的重要一步。其技术路径选择——证据深度学习+异质集成——在保持计算效率(单次前向传播,与MC Dropout的20次形成鲜明对比)的同时,提供了经良好校准的不确定性估计,在临床转化潜力上具有明确优势。然而,从论文到诊室,仍有若干挑战值得审慎考量,比如:不确定性量化的“人机对齐”,外部验证的覆盖面,证据深度学习本身的可靠性争议

总体而言,本研究的方向是令人振奋的。 它直面了医学AI领域最棘手但最本质的问题:如何在提供答案的同时,诚实地表达不知道。沿着这条道路继续前行,我们或许终将迎来一个AI不再是被动工具、而是主动协作伙伴的时代——一个既懂诊断、也懂分寸的“数字同事”。

参考资料

Guennoun, Y., Nedelec, P., McArthur, M. et al. Segmenting with confidence through uncertainty quantification for brain tumor imaging. npj Digit. Med. (2026). https://doi.org/10.1038/s41746-026-02902-0


撰文 | 郝娅婷
审核 | 医工学人理事会
扫码加入医工学人,进入综合及细分领域群聊,参与线上线下交流活动

发表回复