Nature machine intelligence | 牛津大学开发基于170万个体数据预训练的多模态基础模型，实现跨场景与设备的心脏健康评估

星标“医工学人”，第一时间获取医工交叉领域新闻动态~

从医院里精密的12导联心电图，到智能手表上单通道的光电容积描记图，心脏数据的“巴别塔”让传统AI模型无所适从，往往一个场景一套算法，难以复用。2026年2月，由牛津大学David A. Clifton教授等领导的国际团队完成一项发表于《自然·机器智能》的研究，提出了“心脏感知基础模型”，通过生成式预训练，首次将来自170万人的异构心脏信号与临床文本统一起来。它不仅在各种诊断、预测任务上全面超越专有模型，更能灵活适配从单导联穿戴设备到多导联医院系统的所有场景，为破解医疗AI的碎片化困局提供了关键钥匙。

现状与局限

心血管疾病是全球健康的头号杀手，而心电图和光电容积描记图则是捕捉心脏“求救信号”的生命线。然而，一个尴尬的现实是：我们收集数据的能力，远超我们分析数据的能力。

在ICU，监护仪实时刷新着多通道波形；在门诊，12导联心电图记录着详尽的心脏电活动；在你的手腕上，智能手表则通过光传感器追踪着每一次脉搏的跳动。这些数据形态各异、格式不同，就像说着不同方言的部落。传统的人工智能模型，大多是“专才”：为12导联心电图训练的模型，无法处理单导联的可穿戴数据；为房颤诊断优化的算法，也难以用于预测一年后的死亡风险。

这就导致了医疗AI的“孤岛效应”。开发者们不得不针对每一种信号类型、每一种设备、每一种临床任务，从零开始训练和调整模型。这不仅效率低下，而且严重依赖大规模、高质量、格式统一的标注数据。在现实中，这样的数据往往是稀缺品。结果就是，先进的AI工具难以跨越医院围墙，普惠到社区、家庭，乃至资源匮乏的地区。正如论文作者所言：“这种差异不仅凸显了获取最先进分析工具的巨大不平等，也迫切呼唤一种能适应不同临床环境的、通用的、可扩展的解决方案。”

模型结构与训练

面对“通才”与“专才”的难题，来自牛津大学等机构的研究团队给出了他们的答案——心脏感知基础模型（CSFM）。其核心思想，是借鉴了ChatGPT等大语言模型的成功经验：通过在海量、多样化的数据上进行预训练，让模型自己学会数据的“通用语法”，再针对具体任务进行微调。

图 1 | CSFM 概览

a, CSFM 作为一个多功能且可扩展的框架，能够从家庭到医院等不同场景收集的异构心脏监测数据（包括 ECG、PPG 及临床文本）中学习统一的表征，并支持广泛的下游心血管任务。

b, 预训练阶段整合了来自 MIMIC‑III‑WDB（美国）、MIMIC‑IV‑ECG（美国）和 CODE‑FULL（巴西）的数据，涵盖了约170万个异构的心脏相关生物信号及其文本描述。图中展示了各数据集来源和信号模态的分布情况。

c, 下游评估涵盖五个代表性任务，包括心脏疾病诊断（CDD）、人口统计学信息识别（DIR）、生命体征测量（VSM）、临床结局预测（COP）和基于 ECG 的问答（QA），使用了 CinC17（美国）、PTB‑XL（德国）、SimBand（美国）、VTaC（美国）、CODE‑15（巴西）和 VitalDB（韩国）等数据集，覆盖了多样化的医疗场景和人群。

CSFM的“黑科技”主要体现在以下三个层面：

1 . 异构数据的统一“语言”：模型的首要任务是让不同模态的数据能够“对话”。它将心电图、光电容积描记图信号切割成0.1秒的“补丁”，并通过线性投影转化为向量。同时，将对应的医生报告或机器生成的文本，也用自然语言处理技术转化为向量。这些来自信号和文本的向量，最终被拼接成一个统一的输入序列，送入Transformer架构的编码器中。

2 . 生成式掩码预训练：这是CSFM学习的核心策略。在预训练阶段，模型会随机“遮挡”掉75%的信号补丁和50%的文本词元，然后强迫自己根据剩下的可见部分，去“脑补”和重建那些被遮挡的内容。这个过程，迫使模型必须深入理解心脏信号的底层结构和临床语义，而非简单地记忆表面特征。更重要的是，这种策略天生就能处理“残缺”的输入——无论你给它几个导联的信号，它都能工作。

3 . 技术与架构创新对比：

特性	传统深度学习模型 (如ResNet1d, InceptionTime)	心脏感知基础模型 (CSFM)
核心范式	针对特定任务和数据的“专才”模型，从头训练	在大规模异构数据上预训练的“通才”基础模型，下游任务微调
输入灵活性	固定。模型的输入层通道数被锁定（如12导联），无法直接适配其他配置。	高。通过“信号补丁+掩码策略”实现通道/模态无关，可处理任意组合的导联和信号（1/2/6/12导联心电，光电容积描记图）。
数据利用	依赖大规模、高质量、格式一致的标注数据集。	可同时利用海量无标注/弱标注的异构数据（信号+文本）进行自监督学习。
迁移能力	弱。迁移到新任务或新设备时，往往需要重新设计网络。	强。预训练得到的表征可作为强大特征直接应用，或通过少量数据微调即可适配新场景。
参数量	相对较小，固定。	可扩展。提供Tiny, Base, Large三个版本，适应不同计算需求。

性能评估与结果

为了证明CSFM不是一个“花瓶”，研究团队设计了一场覆盖五大场景、包含多个公共数据集的“大考”，并将其与一众传统强 baselines 进行对比。

图 2 | 不同医疗场景下的整体性能，分别在对应的下游数据集上进行验证。

a, 不同数据集上的心血管疾病诊断性能。采用 macro‑F1 分数衡量多标签/多类别分类任务的表现。

b, 人口统计学信息识别。年龄和 BMI 预测（单变量回归）采用 MAE 衡量（数值越低越好），性别预测（二分类）采用 AUC 衡量（数值越高越好）。

c, 基于 II 导联 ECG 和 PPG 输入的血压波形重建。左侧：一个代表性示例；右侧：导出的 SBP 和 DBP 与真实值之间的 R2R2 值。

d, 基于六导联诊断性 ECG 的一年死亡率预测。图中展示了一次运行的 ROC 曲线。

e, 基于报警前即刻信号（ECG 和 PPG）的 ICU 误报警预测。图中展示了一次运行的 ROC 曲线。

f, 配对的 ECG 与问题的 ECG 问答。问答任务被构建为一个多选题系统，对于每个问题模板，模型从一组候选答案中选择最合适的回答。所有包含误差线的小图（a、b 和 f）表示三次独立运行（不同随机种子，n=3）的平均值 ± 标准差。性能采用仅针对有效答案计算的 macro‑F1 分数（一种修正的 macro‑F1 分数）进行衡量。

诊断准确性：在心电疾病诊断任务（PTB-XL, CinC17, SimBand）上，CSFM的宏观F1分数全面超越传统模型。例如，在CinC17数据集上，CSFM-Large取得了0.677的分数，而最佳传统方法仅为0.634。
跨导联泛化能力：这是CSFM最亮眼的表现之一。无论输入是完整的12导联，还是简化的6导联、2导联，甚至是单导联（Lead II），CSFM在一年死亡率预测和疾病诊断上的表现都显著优于传统方法。尤其是在PTB-XL数据集中，即使用单导联输入，CSFM的表现也逼近甚至超过传统模型用12导联的效果。
模态灵活切换：在ICU的误报警预测任务中，无论输入是仅有心电图、仅有光电容积描记图，还是两者结合，CSFM的AUC（曲线下面积）均优于基线。这证明它真正学会了不同信号间的内在联系。
作为特征提取器：研究人员甚至直接冻结CSFM，将其作为“特征提取器”，把输出的嵌入向量喂给一个简单的XGBoost分类器。结果显示，这种“CSFM+简单分类器”的组合，性能足以媲美甚至超越完全从头训练的复杂深度学习模型。这极大地降低了AI应用的门槛。
跨模态生成：CSFM还能“无中生有”。它可以从光电容积描记图信号中生成对应的心电图波形，用于房颤检测；也能从单导联心电图中重建出完整的12导联信号，为资源有限的环境提供了数据增强的新思路。

应用潜力与影响

CSFM的出现，远不止是又一个新的AI模型。它预示着医疗人工智能发展路径的一次重要转向：从“手工作坊”式的定制化开发，走向“工业化”的平台化赋能。

对硬件厂商：未来的可穿戴设备制造商，或许无需再为每款新产品训练一套算法。只要设备能输出心脏信号，就能直接调用CSFM进行精准分析，实现“即插即用”。
对临床诊断：医生将拥有一个统一的“AI助手”。无论是查看门诊的12导联心电图，还是翻阅ICU的监护数据，或是分析患者在家用智能手表记录的疑似房颤片段，这个助手都能提供一致、可靠的解读和风险预测。
对药物研发：在临床试验中，CSFM可以作为更敏感的工具，从海量的患者心电数据中早期发现药物的潜在心脏毒性或疗效信号。
对全球健康：特别是在中低收入国家，昂贵的12导联心电图机难以普及。CSFM可以让基于廉价单导联或光电容积描记图设备的AI诊断成为可能，极大地促进优质医疗资源的普惠。

局限性与未来挑战

尽管CSFM展现出了巨大的潜力，但如同任何前沿技术，它在走向临床应用的道路上，仍需跨越几道重要的门槛。

首先，是“黑箱”的可解释性。虽然模型性能优越，但它究竟是基于信号的哪些细微特征做出判断的？在关乎生死的医疗决策中，医生和患者需要一个“为什么”。缺乏可解释性，会限制临床信任的建立。

其次，是数据的偏见与鲁棒性。尽管预训练数据涵盖了1.7亿人，但其来源（美国、巴西）仍存在地域和人群的局限性。模型在不同种族、年龄、性别，乃至不同品牌设备采集的信号上，是否还能保持同样优异的性能？这需要更大规模、更多样化的数据来验证。

最后，是计算成本与部署效率。训练如此大规模的Transformer模型，需要耗费巨大的算力和能源。即使是最小的CSFM-Tiny版本，在资源受限的嵌入式设备（如智能手表）上的实时运行，依然是一个工程挑战。

总而言之，心脏感知基础模型的问世，为我们描绘了一个由AI驱动的、无缝隙的心脏健康管理未来。它证明了从碎片化数据中提炼通用智慧的可行性，是通向通用医疗人工智能道路上坚实的一步。下一步的关键，在于如何让这个强大的“大脑”变得更透明、更公平、更轻盈，从而真正从论文走进诊室，走进每一个需要它的家庭。

▼参考资料

Gu, X., Tang, W., Han, J. et al. Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals. Nat Mach Intell 8, 220–233 (2026). https://doi.org/10.1038/s42256-026-01180-5

END

撰文 | 郝娅婷

编辑 | 吴苡齐

审核 | 医工学人理事会

扫码加入医工学人，进入综合及细分领域群聊，

参与线上线下交流活动