Nature biomedical engineering |从图像到视频，从报告到对话：牛津大学团队首个胎儿超声视觉语言模型如何重构超声培训范式

星标“医工学人”，第一时间获取医工交叉领域新闻动态~

备用标题模板

超声检查是高度依赖操作者经验的影像学 modality。一名新手超声医师成长为专家，需要数年时间积累“手感”与“眼力”。2026年1月15日，牛津大学团队在《Nature Biomedical Engineering》上发表的研究，给出了一个激进的解决方案：他们训练出一个名为Sonomate的视觉语言模型，能够实时“看懂”超声视频流，理解操作者的口语指令，并在无需人工标注的前提下完成解剖结构识别、图像质控、操作序列追踪等任务。在关键指标上，Sonomate将新手与资深医师的技能差距缩小了15.4%。这不仅是医学影像AI从“读图”走向“读视频、懂对话”的技术跨越，更可能成为缓解全球超声医师短缺困境的拐点。

01 经验鸿沟与数据悖论

超声检查有一个被长期默许却又代价高昂的悖论：它既是最普及的影像技术，也是最依赖“手感”的技术。

与CT、MRI不同，超声是实时、动态、自由手的操作过程。探头角度、施压力度、切面选择，每一个决策都直接影响图像质量和诊断准确性。一名刚取得资质的超声医师与资深专家之间的差距，核心不在于“读不懂图”，而在于“扫不出图”——缺乏对解剖结构快速定位、标准平面即时判断、异常征象敏锐捕捉的“肌肉记忆”。

这种技能鸿沟正在演变为全球性的医疗资源危机。在发达国家，超声检查需求持续增长，而资深医师培养周期长达5—10年；在中低收入国家，合格的超声从业者缺口数以万计。传统解决方案——延长培训周期、增加模拟训练——边际效应递减，难以规模化复制“专家经验”。

现有的人工智能辅助方案同样存在结构性缺陷：

通用视觉语言模型（如CLIP）：无法适配医学场景。胎儿超声图像中的“头”与自然图像中的“头”形态天差地别，CLIP在胎儿解剖分类任务上的召回率仅13.3%，基本不具备可用性。

医学多模态模型（如BiomedCLIP、Med-Flamingo）：虽在医学图像-报告匹配上表现优异，但其训练语料来源于学术论文的书面语，与超声医师在操作现场的口语指令存在显著差异。更关键的是，这些模型仅能处理静态图像，无法理解超声扫查的视频流时序逻辑——而后者恰恰是操作技能的核心载体。

核心困境：我们需要一个既“懂超声图像”又“懂超声语言”，且能在实时操作中提供反馈的AI。但现实是，训练这样的模型需要海量的、成对的超声视频与操作者语音数据，且要应对口语的随意性、内容与画面的时间错位、不同医师的习惯差异——这些“脏数据”恰恰被学术界长期回避。

02 对齐策略的双重降噪

Sonomate的突破性，在于它不是在一个“干净”的人造数据集上训练，而是在真实的临床超声操作现场“浸泡”出来的。

研究团队依托PULSE项目，采集了525段全流程胎儿超声扫查视频，时长总计151小时，涵盖早、中、晚孕期。同步录制操作医师的语音，经WhisperX转录为79,885条句子，平均句长9.24词。这一数据集的独特性在于：它记录的不是“事后报告”，而是“边操作边口述”的真实思维流。

图1：数据集概览。

a，超声视频–音频对的采集与预处理。

b，所采集的视觉与文本模态数据总量。

c，妊娠早期、中期及晚期扫描的分布。

d，视频时长的分布。

e，每句词数的分布。

f，本数据集的词云。

g，按采集时间划分的训练集、验证集与测试集。

h，临床超声视频中一个视觉–文本错位的示例。

面对这一数据，Sonomate的核心技术创新可概括为三层对齐架构：

技术层级	传统方法困境	Sonomate解决方案	性能提升证据
粗粒度对齐（视频-文本）	整段视频与整段转录强制对齐，口语中大量“与患者寒暄”内容成为噪声	对比学习：拉近成对视频-文本距离，推远不成对样本	为细粒度对齐奠定基础
细粒度对齐（帧-句子）	语音与画面天然不同步——医师先说“我们看股骨”，几秒后才切到股骨平面	上下文标签校正：将当前句子与之后2帧关联为正样本	相似度矩阵更贴近真实对齐标签
语义噪声过滤（解剖意识对齐）	每3句话中仅有1句与视觉内容相关（图1h）	构建超声视觉词汇表（Extended Data Table 1），提取句中的解剖关键词生成模板句	去除弱关联词汇后性能轻微下降，去除强关联词汇后性能断崖式下跌

图2：数据集概览。

a，CLIP²² 示意图。

b，粗粒度视频–文本对齐方法将配对的视频与文本（即转录音频）特征“拉近”，同时将未配对的特征“推远”。

c，细粒度帧–句子对齐方法通过优化文本–视觉相似度矩阵 p(⋅)p(⋅)，最大化句子与其对应视频帧之间的相似度得分。

图3：跨模态对齐可视化。

a，BiomedCLIP²³ 的图像特征可视化。

b，本文 Sonomate 的图像特征可视化。

c，BiomedCLIP²³ 的文本特征可视化。

d，本文 Sonomate 的文本特征可视化。

e，BiomedCLIP 与本文方法所得文本–视觉相似度矩阵 p 的对比。采用 Sigmoid 激活函数将相似度得分归一化至 [0,1]区间，即σ(p)。x 轴表示视频帧索引，y 轴按序排列句子。在 a–d 中，顶点与内点间距离越小，表明跨模态对齐效果越佳。在 e 中，相似度矩阵 p 与对齐标签匹配程度越高，反映跨模态对齐性能越优。

这一架构的本质，是让模型学会“选择性倾听”。Sonomate不试图理解医师说出的每一个词，而是精准捕捉那些与画面内容强关联的“操作指令词”，并容忍数秒的时延。这是对人类超声扫查认知过程的高度仿真。

03 实验与验证

Sonomate的有效性在三类下游任务中得到系统验证，其关键数据具有显著的临床与技术意义。

1. 零样本解剖分类：超越监督学习范式

图4：解剖结构检测流程与数据集。

a，CLIP²² 的推理流程。

b，本文知识增强型解剖结构检测流程。

c，从解剖知识图谱中获取信息的三种方案。

d，解剖结构检测验证数据集的统计信息与实验结果。

ABD，腹部；PLA，胎盘；CRL，头臀长平面；ACP，腹围平面；FLP，股骨长平面；HCP，头围平面；SOB，枕下前囟平面。

图5：解剖结构检测性能。

a，在妊娠早期数据、妊娠中期数据及开源母胎超声数据集上的解剖结构分类性能。

b，解剖知识图谱中三种信息获取方案的对比。

c，混淆矩阵。颜色条对应于混淆矩阵中的数值。

d，与现有全监督基线模型的性能对比。

e，与人类操作者水平的对比。

f，消融研究。最佳结果以粗体红色字体突出显示。Prec.，精确率；F1，F1分数；LC，标签校正。

Sonomate在无需任何人工标注数据的前提下，在孕早期5类、孕中期8类、以及外部公开数据集的6类解剖图像分类任务中，召回率达到77.2%，而CLIP仅13.3%、BiomedCLIP仅33.2%。更值得注意的是：

在标注训练数据少于1000例的条件下，Sonomate的识别准确率超过全监督模型SonoNet和SimCLR；

在资深医师与新手医师数据分别训练的对比中，用新手操作数据训练的Sonomate，其性能与资深医师训练版的差距较基线缩小15.4%（Extended Data Fig. 2）——这是技能迁移的量化证据。

2.图像级视觉问答：精度与鲁棒性

Sonomate在5类图像级VQA任务中平均准确率84.15%，较BiomedCLIP基线提升6.3%—15.7%。更具工程价值的是其护栏机制：

OOD检测：在阈值0.97时可100%拒绝非分布内问题；

拼写容忍：对“fetal”误拼为“fetal”等输入，经改写后准确率从75.28%恢复至79.78%。

3.视频级问答：首个“懂时序”的超声模型

这是当前医学影像语言模型中极少数支持视频级推理的工作。Sonomate能够回答“操作者依次检查了哪些解剖结构”“下肢检查完后看了什么”“是否漏扫了某个切面”等时序逻辑问题。在解剖序列预测任务中，将最小编辑距离（MED）降低0.03，BLEU-1提升0.03。

4.计算效率：可部署性验证

在GPU+CPU配置下，单张图像推理7.91ms，单问题回答7.737ms，4分钟超声视频的问题响应9.3秒。无需云端算力，可在常规工作站运行。

图6：基于知识的视觉（图像级与视频级）问答任务

a，本文基于知识的 VQA 流程。

b，图像级与视频级 VQA 数据集的统计信息，包括训练集、验证集和测试集的样本数量。

c，图像级 VQA 任务的实验结果。

d，视频级 VQA 任务的实验结果。注：最佳结果以粗体红色字体突出显示。

图7：Sonomate 的安全护栏。

a，OOD 问题检测网络。

b，图像级 VQA 任务的 OOD 检测准确率。

c，视频级 VQA 任务的 OOD 检测准确率。

d，问题释义的定性结果。

e，基于问题边缘案例的安全护栏验证。

para.，释义；acc.，准确率。

04 培训革命与设备进化

Sonomate的价值，并非在于“做出一个性能更好的分类器”，而在于重新定义了AI在超声临床工作中的生态位。

短期影响：超声培训的“副驾”

当前超声医师培训的核心痛点在于反馈的滞后性——学员扫查时无人即时纠错，事后回顾又丢失了操作情境。Sonomate可部署于超声设备端，在学员扫查时实时回答“这是标准平面吗”“漏了什么结构”，将专家经验嵌入操作流程，而非游离于报告环节。

中期影响：工作流效率的重构

研究中记录了一个典型场景：新手医师常因不确定第一张图像是否合格，连续拍摄多张冗余图像。这不仅延长检查时间，更增加患者暴露时间。Sonomate可在扫查瞬间给出“图像质量合格、可继续”的确认，预计可减少15%—20%的非必要图像采集。

长期影响：超声服务可及性的普惠化

在中低收入国家，资深超声医师极度稀缺。Sonomate提供了一条“技能压缩”路径：将资深医师数十年的经验模式化为可部署的模型，使基层医师在有限培训下达到更高质量的扫查水平。这是超声领域的“知识蒸馏”。

核心论断：“Sonomate并非旨在取代专家判断或进行临床诊断。其主要价值在于教育与早期职业支持——增强信心、辅助决策、提升流程效率、减少对资深医师监督的依赖。”（原文Discussion）

05 剩余误差与认知边界

Sonomate是一项具备范式迁移潜力的研究，但将其从论文推向临床，仍需跨越三重门槛：

其一，数据集的地理与人口偏倚。全部数据采集自英国牛津郡的单一医疗系统，操作者仅7名，患者均为英国本土孕妇。模型对非高加索人种胎儿解剖结构、不同品牌超声设备、非英语操作语音的泛化能力，尚未得到验证。

其二，“知识噪声”的鲁棒性。研究坦诚指出，Sonomate在引入外部知识图谱后性能显著提升，但对训练时未见过的“噪声知识”高度敏感。在真实临床环境中，若接入的百科知识存在错误或与本地指南冲突，模型可能产生“自信的错误”。

其三，临床终点验证缺失。 当前所有性能指标均停留在图像/视频理解层面，尚未建立与患者结局改善、检查时间缩短、漏诊率降低等临床终点的关联。AI辅助是否真的能让患者受益，是产业化前必须回答的问题。

最后，也是最根本的隐忧：当我们将“资深医师的操作经验”蒸馏为模型参数，并大规模部署给新手时，我们是在加速技能普及，还是在削弱临床学徒制中不可替代的隐性知识传承？这是一个超越了技术范畴的命题，但恰恰是《麻省理工科技评论》读者应当保持警觉的。

▼参考资料

[1] Guo, X., Alsharid, M., Zhao, H. et al. A visually grounded language model for fetal ultrasound understanding. Nat. Biomed. Eng (2026).
https://doi.org/10.1038/s41551-025-01578-3

END

撰文 | 郝娅婷

排版 | 张艳青

审核 | 医工学人理事会

扫码加入医工学人，进入综合及细分领域群聊，

参与线上线下交流活动