npj digital medicine | 当AI知道自己不知道时"举手"：不确定性量化破解脑肿瘤自动化监测的临床落地瓶颈

★ 星标「医工学人」，第一时间获取医工交叉领域新闻动态

深度学习已能在脑部MRI上以超人般的速度勾勒肿瘤边界，然而“黑箱”式的确定性输出让临床医生始终不敢全然托付。2026年6月19日，npj digital medicine发布了一篇题为 “Segmenting with Confidence through Uncertainty Quantification for Brain Tumor Imaging”(通过不确定性量化实现脑肿瘤影像的置信分割)的论文，加州大学旧金山分校（UCSF）与杜克大学的研究团队给出了一套新解法——证据深度学习集成框架。它不仅将脑膜瘤分割的Dice系数推至0.95，更为每一个体素、每一次体积测量配上了经过校准的95%可信区间。模型在影像模糊或解剖复杂处“犹豫”时，会清晰标出自己哪里不确定、为什么不确定。这或许正是医学AI从实验室走向诊室的那把钥匙。

文章图片预览

Figure 1 | 证据深度学习集成框架的概念概述。一幅T1增强MRI图像由M=5个模型组成的集成处理。每个模型逐体素输出一个Beta分布的参数，表示肿瘤存在的概率。这些独立的分布被组合成一个混合模型，从中推导出最终的后验概率，用于分类每个体素并量化不确定性。

Figure 2 | 异质EDL集成在测试集（N=68）上的定量评估。（A）按真实肿瘤体积分层的Dice系数分布。模型在不同肿瘤尺寸范围内均保持高性能。少数零Dice点对应的是具有挑战性或分布外病例：绿点代表最困难的示例（难度评级9/10），其余为小型肿瘤（<4 cm³）。（B）预测体积与真实体积对比，按放射科医生评估的难度着色。误差线表示通过EDL框架推导的95%可信区间。可信区间在较小和较困难的肿瘤上变宽，展示了适当的不确定性校准。

Figure 3 | 内部和外部测试集上各方法区间锐度对比。箱线图显示了MC Dropout（p=0.2, p=0.5）、同质EDL和异质EDL的体积归一化95%可信区间宽度分布。在内部测试集上，MC Dropout产生的区间最锐利（中位数更低、离散度更紧），而两种EDL变体均产生更宽的区间。在外部测试集上，区间宽度保持了相同的排序。

Figure 4 | 四个具有挑战性（难度评分≥7/10，由神经放射科医生评定）的脑膜瘤病例（A–D）的不确定性感知分割结果的定性可视化。每个面板展示了在3D输入体积的一个代表性切片上，预测不确定性分解为认知（epistemic）和偶然（aleatoric）分量的空间分布。偶然不确定性系统性地集中在肿瘤边界，与内在的体素级模糊区域对齐，而认知不确定性则呈现更多的空间聚集性，常定位于解剖模糊区域，如肿瘤-脑界面。病例A的肿瘤因累及邻近的上矢状窦（其增强方式与脑膜瘤相似）而具有挑战性。病例B的肿瘤因累及邻近的海绵窦（其增强方式与脑膜瘤相似）而具有挑战性。病例C为术后脑MRI，显示残留/复发性脑膜瘤，但部分增强结构代表正常血管或术后瘢痕组织，使得与残留肿瘤的区分变得困难。病例D的肿瘤沿硬脑膜反折向蝶顶窦延伸，难以与肿瘤边界区分。

Figure 5 | 四种脑膜瘤MRI（A–D）在图像退化条件下分割稳健性与不确定性分解的定性可视化。每种MRI在三种成像条件下展示：原始、运动模糊和低分辨率，各列分别展示（i）预测与真实标注叠加、（ii）偶然不确定性、（iii）认知不确定性。人工参考标准分割以蓝色显示，模型预测以绿色叠加。对于较简单的病例（如病例A），分割和不确定性图在退化输入下均保持稳定，表明模型在图像退化条件下仍具有强置信度。对于病例C和D，退化导致不确定性明显增加而未显著影响分割精度，与模型在保持性能的同时表达更高不确定性的预期一致。相比之下，病例B是一个特别具有挑战性的海绵窦脑膜瘤病例，涉及复杂解剖结构，在运动模糊和低分辨率下既表现出升高的不确定性，也表现出明显的分割精度下降。这些结果确认了预期的关系：随着现实世界图像伪影增加任务难度，模型变得更加不确定，反映了预测置信度的适当校准。

Figure 6 | 四个代表性临床场景下，经校准的 95% 可信区间所展示的脑膜瘤体积纵向演变。病例 1 展示了肿瘤在短期快速生长后，经放疗后体积缩小。放疗后的体积落到了治疗前可信区间之外，这与真实的治疗响应相符。病例 2 展示了肿瘤在 150 个月内持续生长，随后接受了肿瘤全切术、无残留，术后体积为零，反映了确定性的结构改变。病例 3 展示了肿瘤部分切除后保持稳定，后续的可信区间相互重叠，与疾病稳定状态相符。病例 4 展示了肿瘤在 25 个月的缓慢生长后接受了次全切除术，体积减小幅度超出了不确定性边界，提示具有临床意义的变化。所有这些病例均与神经放射科医生的评估一致。

1. 临床刚需与技术失信之间的鸿沟

脑膜瘤是最常见的原发性脑肿瘤，占所有颅内肿瘤的三分之一以上。对于这类生长缓慢但可能压迫关键脑区的肿瘤，治疗决策高度依赖于影像学上的精准监测。然而，临床实践中评估肿瘤变化的“金标准”——无论是主观判读还是简化的二维测量（如RANO标准）——都难以捕捉真实的肿瘤负荷。大量研究表明，三维体积分析能提供远为精准的进展评估，但手动三维勾画的耗时与观察者间变异使其难以大规模推广。

深度学习在生物医学图像分割任务上已展现出令人瞩目的性能。在脑肿瘤分割领域，nnU-Net等自配置框架几乎成了“开箱即用”的行业基准。然而，一个吊诡的局面始终存在：模型的分割精度越高，临床医生对它的信任度反而可能越低。

这并非悖论。标准的确定性分割模型输出一个固定的二值掩膜，它掩盖了预测本身所固有的不确定性。当模型将某个体素标记为“肿瘤”时，它不会告诉你这个判断的可信度是99%还是51%。对于临床决策而言，这种信息缺失是致命的——尤其是在肿瘤边界毗邻 eloquent brain regions（功能区）、术后改变与残留肿瘤难以区分、或不同时间点影像质量参差不齐的场景下。小至数毫米的分割偏差，可能直接影响放疗靶区的勾画、手术方案的制定，或是对肿瘤进展与稳定的误判。

“临床采用AI的一大障碍是自动化分割中缺乏经过校准的不确定性，这限制了临床医生的信任。”
—— 引自论文摘要

与此同时，人类专家之间的分割变异是客观存在的，但这种变异在常规临床中既未被量化、也未被体系化。换言之，临床医生习惯了不确定性，但他们无法接受一个对自己的不确定性保持沉默的AI。 这就构成了当前医学影像AI落地中最尖锐的矛盾之一：能力过剩，而可信度不足。

2. 不确定性量化如何重塑技术底座

这篇研究的核心贡献，并非简单地在现有分割网络上做增量改进，而是从建模哲学的层面重构了深度学习对“知识”的表达方式。

从确定性输出到概率分布

传统分割网络（如标准SegResNet）在最后一层使用softmax激活，为每个体素输出一个“肿瘤/非肿瘤”的确定性概率。这个概率本身并不包含关于“这个概率有多可靠”的元信息。

研究团队引入了证据深度学习（Evidential Deep Learning, EDL） 框架，其核心创新在于：模型不再直接输出分类概率，而是输出一个Beta分布（二元分类场景下Dirichlet分布的特例）的参数。简言之，网络输出的是一对证据值 (e₀, e₁)，经变换后构成Beta分布的参数 (α₀, α₁)。该分布的均值代表肿瘤存在概率，而其方差则直接量化了该预测的不确定性。

类比而言：传统模型像一个只会给出答案的学生，不管对错都斩钉截铁；而EDL模型像一个会写解题过程的学生，不仅给出答案，还会表达“这道题我有八成把握，但中间两步我有些犹豫”。

集成：让“专家委员会”产生共识

单个EDL模型仍然可能过度自信。研究团队采用了五模型集成（Ensemble） 策略，并有意地在数据层面（五折交叉验证+自助采样）、模型层面（不同随机初始化+数据增强序列）、目标层面（KL散度惩罚项权重与退火策略差异化）三个维度上引入多样性。

更关键的一步是：团队对比了两种集成配置——

• 同质集成：五个架构完全相同的SegResNet；
• 异质集成：两个SegResNet、两个SWIN UNETR、一个DiNTS的组合。

异质集成的设计依据在于：不同架构具有不同的归纳偏置（inductive bias），它们可能在不同的失败模式下犯错。当这些“视角各异”的专家共同审视同一张影像时，共识区域的置信度更高，分歧区域的偏差也能被系统性地捕捉。

不确定性的二元分解：偶然 vs. 认知

研究将总预测方差优雅地分解为两项（公式5）：

• 偶然不确定性（Aleatoric-like）：源于数据本身的固有噪声和体素边界模糊性（如部分容积效应）。这种不确定性即使训练数据无限多也无法消除，它是任务本身的难度属性。
• 认知不确定性（Epistemic-like）：源于模型对未见过的解剖结构或分布外数据的“知识匮乏”。这种不确定性随着训练数据增加而可被缩减。

这组分解在临床可视化中产生了直观的价值：偶然不确定性往往集中于肿瘤边界（物理上的模糊地带），而认知不确定性则更多聚类于解剖复杂区域，如肿瘤与硬脑膜静脉窦的交界、术后改变与残留肿瘤的重叠区——这些恰恰是神经放射科医生在日常阅片中最需要警惕、也最耗时的地方。

新旧范式对比：

维度	确定性分割（传统方法）	EDL集成框架（该研究）
输出形式	固定二值掩膜	每个体素的Beta分布
不确定性表达	无	体素级 + 体积级可信区间
错误检测能力	无，无法预知自己的失败	不确定性-误差强相关（R²达0.68）
临床可解释性	低（黑箱）	高（可区分“数据模糊”与“模型无知”）
部署推理成本	1次前向传播	1次前向传播（与单模型相同，优于MC Dropout的20次）
体积置信区间	无	经校准的95%可信区间（覆盖率92.8%）

3. 高精度与高可信能否兼得？

研究的验证体系横跨三个独立队列，总样本量超过千例，其中外部验证集包含来自杜克大学的353名患者，有效检验了跨机构泛化能力。

分割精度：不降反升

一个常见的顾虑是：引入不确定性量化是否会牺牲分割精度？答案是否定的：

• 同质EDL集成（五SegResNet）在内部测试集上达到中位Dice 0.95
• 异质EDL集成中位Dice 0.93
• 对比基准——在相同数据上训练的nnU-Net v2——中位Dice仅为0.77（p < 0.05）

值得注意的是，同质集成在Dice上略优于异质集成，但异质集成在校准能力和不确定性-误差相关性上表现更优。这一对比本身就是一个有价值的科学发现：追求极致的精度与追求可靠的不确定性估计，可能是两个需要不同优化方向的目标。

校准质量：可信区间真实反映误差

研究的核心评价指标是经验覆盖率（Empirical Coverage）——即真实肿瘤体积落在模型预测的95%可信区间内的比例。一个完美校准的系统，其经验覆盖率应接近95%。

方法	经验覆盖率	分割误差R²	体积误差R²
MC Dropout (p=0.2)	66%	0.63	0.54
MC Dropout (p=0.5)	72%	0.65	0.55
同质EDL集成	87%	0.61	0.53
异质EDL集成	92.8%	0.68	0.40

异质EDL集成以92.8%的覆盖率最接近理想校准。作为对比，MC Dropout方法虽然区间更窄（更“锐利”），但覆盖率仅66-72%，属于典型的过度自信（overconfident）。在临床场景中，过度自信意味着漏报风险——当一个模型声称“95%可信”而真实覆盖率只有七成时，医生基于此所做的“稳定/进展”判断将面临不可接受的误判概率。

外推泛化：跨机构仍保持稳健

在杜克大学外部验证集上（353名患者，影像采集协议、扫描设备、患者人口学特征均不同）：

• 同质EDL集成中位Dice 0.92（与内部测试集0.95无显著性差异，p=0.57）
• 异质EDL集成中位Dice 0.93（p=0.71）

这表明该框架具备良好的跨机构通用性，无需针对新中心进行微调即能保持高水准。

4. 从“辅助读图”到“决策伙伴”

这项研究的临床意义远超“又一个高精度分割模型”。其真正的价值在于赋予了AI与临床医生之间建立信任关系的基础设施。

场景一：纵向随访中的“测量噪声”消除

脑膜瘤患者通常需要数年的影像随访。临床决策的关键问题是：体积变化3%是真实生长还是测量波动？研究中展示的纵向案例（Figure 6）令人印象深刻：通过为每个时间点的体积测量配准95%可信区间，系统能清晰地区分“超出测量噪声的真实变化”与“在可信区间内的稳定性”。在病例1中，放疗后体积降至放疗前可信区间之外，这为“治疗响应”提供了统计学证据；而在病例3中，术后连续两次测量的可信区间相互重叠，支持“疾病稳定”的判断。

场景二：不确定性图指导人工复核

传统的AI辅助阅片流程是“模型画圈→医生审核”。但医生面对一个固定掩膜时，往往无法迅速判断哪里最需要关注。本研究的不确定性图（Figure 4）将认知不确定性高亮标记于解剖模糊区域（如肿瘤-静脉窦界面），实质上为医生提供了一份“注意力地图”。这有望将阅片效率从“逐层筛查”提升为“重点复核”。

场景三：图像质量退化的自动预警

研究中刻意引入运动模糊和低分辨率退化的实验（Figure 5）揭示了一个更细腻的机制：在简单病例（边界清晰、对比度高）中，即使图像退化，不确定性仍保持低位；而在复杂病例中，退化会显著放大不确定性信号。这相当于为影像质控体系嵌入了一个“自动报警器”——当不确定性异常升高时，可能提示图像质量不足或病例超出模型能力范围，应当触发重新扫描或人工深度介入。

总结与思考

这项研究无疑代表了医学影像AI从“实验室精度竞赛”走向“临床可信部署”的重要一步。其技术路径选择——证据深度学习+异质集成——在保持计算效率（单次前向传播，与MC Dropout的20次形成鲜明对比）的同时，提供了经良好校准的不确定性估计，在临床转化潜力上具有明确优势。然而，从论文到诊室，仍有若干挑战值得审慎考量，比如：不确定性量化的“人机对齐”,外部验证的覆盖面,证据深度学习本身的可靠性争议。

总体而言，本研究的方向是令人振奋的。它直面了医学AI领域最棘手但最本质的问题：如何在提供答案的同时，诚实地表达不知道。沿着这条道路继续前行，我们或许终将迎来一个AI不再是被动工具、而是主动协作伙伴的时代——一个既懂诊断、也懂分寸的“数字同事”。

参考资料

Guennoun, Y., Nedelec, P., McArthur, M. et al. Segmenting with confidence through uncertainty quantification for brain tumor imaging. npj Digit. Med. (2026). https://doi.org/10.1038/s41746-026-02902-0

撰文 | 郝娅婷
审核 | 医工学人理事会扫码加入医工学人，进入综合及细分领域群聊，参与线上线下交流活动

npj digital medicine | 当AI知道自己不知道时”举手”：不确定性量化破解脑肿瘤自动化监测的临床落地瓶颈

文章图片预览

1. 临床刚需与技术失信之间的鸿沟