星标“医工学人”,第一时间获取医工交叉领域新闻动态~

从医院里精密的12导联心电图,到智能手表上单通道的光电容积描记图,心脏数据的“巴别塔”让传统AI模型无所适从,往往一个场景一套算法,难以复用。2026年2月,由牛津大学David A. Clifton教授等领导的国际团队完成一项发表于《自然·机器智能》的研究,提出了“心脏感知基础模型”,通过生成式预训练,首次将来自170万人的异构心脏信号与临床文本统一起来。它不仅在各种诊断、预测任务上全面超越专有模型,更能灵活适配从单导联穿戴设备到多导联医院系统的所有场景,为破解医疗AI的碎片化困局提供了关键钥匙。

心血管疾病是全球健康的头号杀手,而心电图和光电容积描记图则是捕捉心脏“求救信号”的生命线。然而,一个尴尬的现实是:我们收集数据的能力,远超我们分析数据的能力。
在ICU,监护仪实时刷新着多通道波形;在门诊,12导联心电图记录着详尽的心脏电活动;在你的手腕上,智能手表则通过光传感器追踪着每一次脉搏的跳动。这些数据形态各异、格式不同,就像说着不同方言的部落。传统的人工智能模型,大多是“专才”:为12导联心电图训练的模型,无法处理单导联的可穿戴数据;为房颤诊断优化的算法,也难以用于预测一年后的死亡风险。
这就导致了医疗AI的“孤岛效应”。开发者们不得不针对每一种信号类型、每一种设备、每一种临床任务,从零开始训练和调整模型。这不仅效率低下,而且严重依赖大规模、高质量、格式统一的标注数据。在现实中,这样的数据往往是稀缺品。结果就是,先进的AI工具难以跨越医院围墙,普惠到社区、家庭,乃至资源匮乏的地区。正如论文作者所言:“这种差异不仅凸显了获取最先进分析工具的巨大不平等,也迫切呼唤一种能适应不同临床环境的、通用的、可扩展的解决方案。”
面对“通才”与“专才”的难题,来自牛津大学等机构的研究团队给出了他们的答案——心脏感知基础模型(CSFM)。其核心思想,是借鉴了ChatGPT等大语言模型的成功经验:通过在海量、多样化的数据上进行预训练,让模型自己学会数据的“通用语法”,再针对具体任务进行微调。

图 1 | CSFM 概览
a, CSFM 作为一个多功能且可扩展的框架,能够从家庭到医院等不同场景收集的异构心脏监测数据(包括 ECG、PPG 及临床文本)中学习统一的表征,并支持广泛的下游心血管任务。
b, 预训练阶段整合了来自 MIMIC‑III‑WDB(美国)、MIMIC‑IV‑ECG(美国)和 CODE‑FULL(巴西)的数据,涵盖了约170万个异构的心脏相关生物信号及其文本描述。图中展示了各数据集来源和信号模态的分布情况。
c, 下游评估涵盖五个代表性任务,包括心脏疾病诊断(CDD)、人口统计学信息识别(DIR)、生命体征测量(VSM)、临床结局预测(COP)和基于 ECG 的问答(QA),使用了 CinC17(美国)、PTB‑XL(德国)、SimBand(美国)、VTaC(美国)、CODE‑15(巴西)和 VitalDB(韩国)等数据集,覆盖了多样化的医疗场景和人群。
CSFM的“黑科技”主要体现在以下三个层面:
1 . 异构数据的统一“语言”:模型的首要任务是让不同模态的数据能够“对话”。它将心电图、光电容积描记图信号切割成0.1秒的“补丁”,并通过线性投影转化为向量。同时,将对应的医生报告或机器生成的文本,也用自然语言处理技术转化为向量。这些来自信号和文本的向量,最终被拼接成一个统一的输入序列,送入Transformer架构的编码器中。
2 . 生成式掩码预训练:这是CSFM学习的核心策略。在预训练阶段,模型会随机“遮挡”掉75%的信号补丁和50%的文本词元,然后强迫自己根据剩下的可见部分,去“脑补”和重建那些被遮挡的内容。这个过程,迫使模型必须深入理解心脏信号的底层结构和临床语义,而非简单地记忆表面特征。更重要的是,这种策略天生就能处理“残缺”的输入——无论你给它几个导联的信号,它都能工作。
3 . 技术与架构创新对比:
|
特性 |
传统深度学习模型 (如ResNet1d, InceptionTime) |
心脏感知基础模型 (CSFM) |
|
核心范式 |
针对特定任务和数据的“专才”模型,从头训练 |
在大规模异构数据上预训练的“通才”基础模型,下游任务微调 |
|
输入灵活性 |
固定。模型的输入层通道数被锁定(如12导联),无法直接适配其他配置。 |
高。通过“信号补丁+掩码策略”实现通道/模态无关,可处理任意组合的导联和信号(1/2/6/12导联心电,光电容积描记图)。 |
|
数据利用 |
依赖大规模、高质量、格式一致的标注数据集。 |
可同时利用海量无标注/弱标注的异构数据(信号+文本)进行自监督学习。 |
|
迁移能力 |
弱。迁移到新任务或新设备时,往往需要重新设计网络。 |
强。预训练得到的表征可作为强大特征直接应用,或通过少量数据微调即可适配新场景。 |
|
参数量 |
相对较小,固定。 |
可扩展。提供Tiny, Base, Large三个版本,适应不同计算需求。 |
为了证明CSFM不是一个“花瓶”,研究团队设计了一场覆盖五大场景、包含多个公共数据集的“大考”,并将其与一众传统强 baselines 进行对比。

图 2 | 不同医疗场景下的整体性能,分别在对应的下游数据集上进行验证。
a, 不同数据集上的心血管疾病诊断性能。采用 macro‑F1 分数衡量多标签/多类别分类任务的表现。
b, 人口统计学信息识别。年龄和 BMI 预测(单变量回归)采用 MAE 衡量(数值越低越好),性别预测(二分类)采用 AUC 衡量(数值越高越好)。
c, 基于 II 导联 ECG 和 PPG 输入的血压波形重建。左侧:一个代表性示例;右侧:导出的 SBP 和 DBP 与真实值之间的 R2R2 值。
d, 基于六导联诊断性 ECG 的一年死亡率预测。图中展示了一次运行的 ROC 曲线。
e, 基于报警前即刻信号(ECG 和 PPG)的 ICU 误报警预测。图中展示了一次运行的 ROC 曲线。
f, 配对的 ECG 与问题的 ECG 问答。问答任务被构建为一个多选题系统,对于每个问题模板,模型从一组候选答案中选择最合适的回答。所有包含误差线的小图(a、b 和 f)表示三次独立运行(不同随机种子,n=3)的平均值 ± 标准差。性能采用仅针对有效答案计算的 macro‑F1 分数(一种修正的 macro‑F1 分数)进行衡量。
-
诊断准确性:在心电疾病诊断任务(PTB-XL, CinC17, SimBand)上,CSFM的宏观F1分数全面超越传统模型。例如,在CinC17数据集上,CSFM-Large取得了0.677的分数,而最佳传统方法仅为0.634。
-
跨导联泛化能力:这是CSFM最亮眼的表现之一。无论输入是完整的12导联,还是简化的6导联、2导联,甚至是单导联(Lead II),CSFM在一年死亡率预测和疾病诊断上的表现都显著优于传统方法。尤其是在PTB-XL数据集中,即使用单导联输入,CSFM的表现也逼近甚至超过传统模型用12导联的效果。
-
模态灵活切换:在ICU的误报警预测任务中,无论输入是仅有心电图、仅有光电容积描记图,还是两者结合,CSFM的AUC(曲线下面积)均优于基线。这证明它真正学会了不同信号间的内在联系。
-
作为特征提取器:研究人员甚至直接冻结CSFM,将其作为“特征提取器”,把输出的嵌入向量喂给一个简单的XGBoost分类器。结果显示,这种“CSFM+简单分类器”的组合,性能足以媲美甚至超越完全从头训练的复杂深度学习模型。这极大地降低了AI应用的门槛。
-
跨模态生成:CSFM还能“无中生有”。它可以从光电容积描记图信号中生成对应的心电图波形,用于房颤检测;也能从单导联心电图中重建出完整的12导联信号,为资源有限的环境提供了数据增强的新思路。
CSFM的出现,远不止是又一个新的AI模型。它预示着医疗人工智能发展路径的一次重要转向:从“手工作坊”式的定制化开发,走向“工业化”的平台化赋能。
-
对硬件厂商:未来的可穿戴设备制造商,或许无需再为每款新产品训练一套算法。只要设备能输出心脏信号,就能直接调用CSFM进行精准分析,实现“即插即用”。
-
对临床诊断:医生将拥有一个统一的“AI助手”。无论是查看门诊的12导联心电图,还是翻阅ICU的监护数据,或是分析患者在家用智能手表记录的疑似房颤片段,这个助手都能提供一致、可靠的解读和风险预测。
-
对药物研发:在临床试验中,CSFM可以作为更敏感的工具,从海量的患者心电数据中早期发现药物的潜在心脏毒性或疗效信号。
-
对全球健康:特别是在中低收入国家,昂贵的12导联心电图机难以普及。CSFM可以让基于廉价单导联或光电容积描记图设备的AI诊断成为可能,极大地促进优质医疗资源的普惠。
尽管CSFM展现出了巨大的潜力,但如同任何前沿技术,它在走向临床应用的道路上,仍需跨越几道重要的门槛。
首先,是“黑箱”的可解释性。虽然模型性能优越,但它究竟是基于信号的哪些细微特征做出判断的?在关乎生死的医疗决策中,医生和患者需要一个“为什么”。缺乏可解释性,会限制临床信任的建立。
其次,是数据的偏见与鲁棒性。尽管预训练数据涵盖了1.7亿人,但其来源(美国、巴西)仍存在地域和人群的局限性。模型在不同种族、年龄、性别,乃至不同品牌设备采集的信号上,是否还能保持同样优异的性能?这需要更大规模、更多样化的数据来验证。
最后,是计算成本与部署效率。训练如此大规模的Transformer模型,需要耗费巨大的算力和能源。即使是最小的CSFM-Tiny版本,在资源受限的嵌入式设备(如智能手表)上的实时运行,依然是一个工程挑战。
总而言之,心脏感知基础模型的问世,为我们描绘了一个由AI驱动的、无缝隙的心脏健康管理未来。它证明了从碎片化数据中提炼通用智慧的可行性,是通向通用医疗人工智能道路上坚实的一步。下一步的关键,在于如何让这个强大的“大脑”变得更透明、更公平、更轻盈,从而真正从论文走进诊室,走进每一个需要它的家庭。
Gu, X., Tang, W., Han, J. et al. Cardiac health assessment across scenarios and devices using a multimodal foundation model pretrained on data from 1.7 million individuals. Nat Mach Intell 8, 220–233 (2026). https://doi.org/10.1038/s42256-026-01180-5
END
撰文 | 郝娅婷
编辑 | 吴苡齐
审核 | 医工学人理事会
扫码加入医工学人,进入综合及细分领域群聊,
参与线上线下交流活动

推荐阅读
npj artificial intelligence | 华南理工等团队联合综述智能可穿戴系统的最新进展:从多尺度生物力学特征到人体运动意图预测
点击关注医工学人

本篇文章来源于微信公众号: 医工学人








