星标“医工学人”,第一时间获取医工交叉领域新闻动态~

你是否想过,将心脏跳动的动态影像与患者独特的生活习惯相结合,以获得前所未有的个性化疾病风险预测?
来自慕尼黑工业大学和帝国理工大学的研究团队于近期发表了一篇研究,介绍了一款开创性的AI模型 ViTa,它首次将全动态的心脏MRI影像与包括饮食、运动在内的个人健康数据深度融合。通过学习超过四万份数据的内在联系,ViTa不仅能精准描绘心脏的结构与功能,还能在同一个框架内完成从疾病分类到关键生理指标预测的多种任务。这项工作突破了传统医学影像分析的局限,为构建能够全面理解心脏健康的“基础模型”铺平了道路,预示着一个更加精准、个性化的心血管诊疗新时代的到来。

心脏磁共振成像(CMR)是心血管评估的金标准。它能精准捕捉心脏的动态结构与功能,但单靠影像,还不足以完整描绘个体的心脏健康状态。
现实中的心血管风险,往往不仅取决于心脏本身,还与性别、BMI、生活方式等系统性因素密切相关。
(1) 任务分散:现有模型大多只解决单一任务,例如分割、表型预测或疾病分类。临床问题复杂多样,这种割裂的方式难以支撑实际应用。
(2) 数据片面:绝大多数模型仅依赖影像。但医生在诊断时绝不会只看影像,他们还会结合病人的性别、代谢状态、生活习惯等信息。
(3) 时空信息缺失:心脏是一个动态器官,CMR 是“3D+T”的完整心动周期。但很多研究只取两个关键帧(舒张末期、收缩末期),忽略了运动的连续性。
结果是,模型无法形成对心脏健康的整体理解,更难以走向真正的“个性化医疗”。
在最新发表于 Medical Image Analysis 的工作中,本文提出了ViTa(Visual-Tabular),一个多视角、多模态、多任务的心脏MRI模型。它尝试走出“单一任务”与“单一模态”的局限,迈向心脏MRI的基础模型。本文的目标很明确:构建一个能够同时整合影像和患者信息,服务于多种任务的心脏MRI基础模型。

图 1 ViTa整体框架图
ViTa 有几个核心特性:
(1)多视角、多帧影像
-
同时利用短轴(SA)与长轴(LA)的 cine MRI 序列,覆盖完整的心动周期(3D+T)。
-
不再只盯着两个关键帧,而是真正捕捉心脏的动态全貌。
(2)影像+表格信息融合
-
引入 117 项患者特征,包括体型指标(身高、体重、BMI)、生理参数(血压、脉搏)、生活方式(运动习惯、吸烟饮酒)等。
-
通过对比学习,将影像表征与表格特征映射到同一潜在空间,实现“影像与个体背景”的深度结合。
(3)多任务统一框架
-
预测:心脏表型与生理指标(如左室射血分数、心输出量等)。
-
分类:多种心血管及代谢性疾病(冠心病、高血压、糖尿病、心梗等),尤其在类别不平衡场景下表现突出。
-
分割:全心脏多视角分割,保证结构精确描绘。
-
所有任务共享同一套表征,避免“一个任务一个模型”的碎片化问题。
换句话说,ViTa 不只是看心脏,而是理解“你的心脏”。
ViTa 基于 UK Biobank 的 42,000 名受试者数据进行训练,这是目前最大规模的公开心脏MRI数据集之一。
在大量实验中,ViTa 展现出显著优势:
(1)表型预测:相较 ResNet、ViT、MAE 等基线,ViTa 的平均误差最小,即便同时预测多个表型也能保持高准确度(见图2,表1,表2)。
(2)疾病分类:引入 117 项患者特征,包括体型指标(身高、体重、BMI)、生理参数(血压、脉搏)、生活方式(运动习惯、吸烟饮酒)等。
(3)分割任务:在全心多视角分割上,ViTa 表现接近甚至超过 nnU-Net 等强基线,验证了表征的结构完整性(见图3)。
换句话说,ViTa 学到的不仅是影像里的心脏形态,更是影像背后与个体健康相互关联的全貌。

图 2 由ViTa模型生成的潜在空间分布图,以不同颜色标注不同表型取值。

表 1 表型预测的平均绝对误差对比。∗∗ 表示 p<0.01。

表 2 不同方法对心脏相关生理特征及人体测量特征的平均绝对误差对比。∗∗ 表示 p<0.01。

表 3 基于图像的 ResNet-50 与图像-表格融合的 ViTa 模型在六种心脏及代谢疾病分类任务上的性能对比。评价指标包括 AUC-ROC、F1 分数、召回率、精确率和平均精度(AP)。每种疾病的阳性样本占比以总人群百分比表示。

图 3 预测分割图示例
在自然语言处理和计算机视觉领域,“基础模型”(foundation models)已经掀起革命。大规模预训练 + 多任务适应,使得模型能广泛迁移和泛化。医学领域也在快速追赶。
ViTa 的意义在于:
-
它不再是“为某个任务训练的模型“,而是为“理解心脏整体状态“而生。
-
它证明了影像与非影像信息(tabular data)结合的巨大价值。
-
它初步展现了“一个模型,支持多任务“的可行性,为未来的临床部署打下基础。
本文相信,这类基础模型将推动医学影像AI从“工具“迈向“助手“,从“任务导向“迈向“患者导向”。
当然,ViTa 只是第一步,未来还有许多值得探索的方向:
(1)更多模态:除了影像与表格数据,还可加入基因组学、电子病历等信息。
(2)更多任务:如心脏运动估计、功能模拟,甚至预后预测。
(3)临床落地:如何在实际医院环境中高效部署?如何解决不同中心、不同扫描协议的差异?
(4)可解释性与信任:医生如何理解模型的决策依据?病人是否能信赖AI给出的结果?
这些问题的答案,将决定基础模型能否真正走进临床。
总结:ViTa 的提出标志着心脏MRI分析进入了一个新阶段。它整合多视角影像与个体健康信息,实现表型预测、疾病分类与分割等多任务,向着“心脏基础模型“迈出坚实一步。
一句话概括:ViTa 不只是看心脏,它在理解“你的心脏”。如果你对基础模型、医学影像AI或个性化心血管健康感兴趣,欢迎关注本文作者团队的后续工作。
作者团队介绍
论文第一作者是慕尼黑工业大学博士生张云迪 帝国理工大学的刘澈和慕尼黑工业大学的Paul Hager为共同作者。谢菲尔德大学的陈晨教授,慕尼黑工业大学的Daniel Rueckert教授和潘家臻研究员为共同通讯作者。
【Reference】Towards Cardiac MRI Foundation Models: Comprehensive Visual-Tabular Representations for Whole-Heart Assessment and Beyond
【Paper Link】https://arxiv.org/abs/2504.13037
【Code Link】https://github.com/Yundi-Zhang/ViTa
END
供稿 | Yundi Zhang
排版 | 周宇茜
审核 | 医工学人理事会
扫码加入医工学人,进入综合及细分领域群聊,
参与线上线下交流活动

推荐阅读
点击关注医工学人
最新直播


本篇文章来源于微信公众号: 医工学人