Nature Medicine | 仅凭一晚睡眠,预测130种疾病!斯坦福大学“睡眠AI”突破,是否颠覆了疾病预防体系?

星标“医工学人”,第一时间获取医工交叉领域新闻动态~

斯坦福大学研究团队开发出首个针对睡眠的多模态基础模型“SleepFM”,该项工作于2026年1月6日发表在《nature medicine》。它仅需分析一晚的多导睡眠监测数据,就能预测未来多种疾病风险。在超过5万人的测试中,该模型对包括全因死亡、痴呆症、心力衰竭等在内的130种疾病显示出强大的预测能力。这项研究不仅预示着睡眠数据作为健康预警系统的巨大潜力,更展示了基础模型在复杂生物医学信号处理上的通用性突破。

01

困局与挑战

长期以来,睡眠被认为是反映身心健康的“晴雨表”。临床上,多导睡眠图是评估睡眠的黄金标准,它能捕捉脑电、心电、肌电和呼吸等丰富的生理信号。然而,这片蕴含巨大价值的“数据富矿”,在疾病预测领域的开采却举步维艰。

第一个困局在于“数据孤岛与标准化之难”。 来自不同医院、不同设备的PSG数据,在通道数量、类型、采样率上各不相同。这种异质性使得算法模型难以通用,每次应用都需要繁琐的数据对齐和重新训练,极大地阻碍了规模化分析。

第二个困局是“标注依赖与人力瓶颈”。 传统方法依赖于人工标注(如睡眠分期、呼吸事件识别),这不仅耗时耗力、成本高昂,且存在评分者间的主观差异。更重要的是,疾病预测往往需要海量的标注数据来建立关联,而这种长期的、前瞻性的标注几乎不可能大规模获取。

第三个困局是“分析维度单一与“只见树木,不见森林””。 多数研究仅关注睡眠的单一维度(如睡眠呼吸暂停指数)与特定疾病(如心血管病)的关联。这忽视了睡眠作为一个多系统协同的动态过程,其蕴含的跨模态、跨时间的复杂模式,远比单一指标更能揭示早期病理生理变化。

因此,尽管睡眠与疾病关联的证据日益增多,如何从纷繁复杂的PSG信号中,高效、自动化地提取出普适、高维度的健康风险特征,并实现跨数据源的鲁棒预测,成为一道待解的难题。

02

SleepFM模型

斯坦福团队提出的解决方案是SleepFM——一个专为睡眠设计的多模态基础模型。其核心创新在于将自然语言处理领域的“基础模型”范式,创造性地迁移到生物信号分析领域。

图1:SleepFM框架概述。

它如何工作?

预处理与“分词”

将所有PSG信号重采样至128Hz,然后将连续信号切割成5秒的片段,每个片段被视为一个基础“词元”。

通道/模态无关的编码器

信号通过一个一维卷积神经网络进行特征提取。关键设计在于其通道无关的注意力池化层。无论输入的是多少个脑电通道、几个心电通道,模型都能通过注意力机制将它们融合成统一的模态表征,从而天然兼容不同配置的设备数据。

时序关系建模

 编码后的“词元”序列(覆盖5分钟的上下文窗口)被送入一个Transformer模块,学习信号内部的长程依赖关系。

无监督的“对比学习”预训练

 这是模型学会“理解”睡眠语言的核心。团队提出了一种 “留一法对比学习” 算法。模型的任务是:给定脑电信号,它能从同一时间段的心电、呼吸等其他信号中找出“匹配”的那一个。这迫使模型学习不同生理信号之间的内在对齐和语义关联,而不是依赖任何疾病标签。

轻量级下游任务适配

预训练完成后,对于一个患者整晚(约8小时)的睡眠数据,模型可生成一个紧凑的“睡眠表征”向量。在预测具体疾病时,只需在此表征上添加一个轻量的LSTM或线性分类头进行微调即可,实现“一个模型,多种预测”。

维度 

传统方法

SleepFM(新方法

数据依赖

高度依赖有标注数据,标注成本高

自监督学习,利用海量无标签PSG数据预训练

模型通用性

针对特定任务(如睡眠分期)或特定数据集定制,难迁移

基础模型,预训练后可通过微调适配多种下游任务(分期、疾病预测等)

数据兼容性

对数据格式、通道配置敏感,需严格标准化

通道/模态无关架构,能自动适应不同数据源的通道差异

预测维度

通常针对单一或少数几种疾病

可一次性预测130+种疾病的未来风险,实现“表型组”级别的扫描

核心创新

优化特定任务的模型性能

学习“睡眠”的通用表征,将PSG信号转化为可计算、可比较的“睡眠指纹”

核心论断: SleepFM的本质,是利用自监督学习从海量无标签数据中,构建出一个关于“健康睡眠生理模式”的通用参考坐标系。任何个体的睡眠数据都可以投影到这个坐标系中,其“坐标位置”的异常,就对应着未来特定的健康风险偏移。

03

实验与验证

研究团队在超过58.5万小时的PSG数据(来自6.5万名参与者)上预训练了SleepFM,并在独立数据集上进行了严格验证(图1)。

基础能力验证(证明其能“读懂”睡眠):

年龄与性别预测:

仅凭睡眠数据,模型预测生理年龄的平均绝对误差为7.33年(皮尔逊相关性0.88);区分性别的AUROC达到0.86。这表明模型确实捕捉到了与基本生理状态相关的睡眠特征。

睡眠分期与呼吸暂停: 

在多个外部数据集上,其睡眠分期宏平均F1分数达0.70-0.78,与U-Sleep、YASA等专用模型表现相当。在呼吸暂停检测上,其严重程度分类准确率为69%,存在性分类准确率高达87%。

核心突破:疾病预测效能:

在斯坦福队列的测试集(5,019人)中,SleepFM展现了惊人的疾病预测广度与精度:

  • 全因死亡率: C指数 0.84

  • 痴呆症: C指数 0.85

  • 心肌梗死: C指数 0.81

  • 心力衰竭: C指数 0.80

  • 慢性肾病: C指数 0.79

共计130种未来疾病的预测C指数或AUROC超过0.75(经多重检验校正后显著)。模型在神经系统疾病(如帕金森病AUROC 0.93)、循环系统疾病(如高血压性心脏病AUROC 0.88)和部分肿瘤(如前列腺癌、乳腺癌AUROC均达0.90)上表现尤为突出。

图2:按疾病类别分层的SleepFM在保留测试集(n = 5,019)上的表现。

1、泛化能力与稳健性检验

跨中心验证: 

在一个完全未参与预训练的多中心数据集(Sleep Heart Health Study)上,仅用少量数据微调后,模型对中风、充血性心力衰竭等的预测依然强劲(AUROC 0.82-0.88),证明了其强大的迁移学习能力。

时间外推验证: 

在来自2020年后的新患者数据上(训练数据截止2019年),模型对关键疾病(如死亡、心衰、痴呆)的预测性能保持稳定,表明其能抵抗临床实践随时间变化带来的分布偏移。

超越基线: 

SleepFM显著优于仅基于人口统计学特征(年龄、性别、BMI等)的基线模型,也优于使用相同架构但不经预训练、直接端到端学习的模型。这直接证明了大规模自监督预训练的价值——它让模型学到了更本质、更具泛化力的生理表征。

图3:SHHS测试集(n = 2,000名参与者)的SleepFM预测表现。

04

影响与未来

SleepFM的研究如果能够走向成熟和应用,可能从三个层面重塑医疗健康领域:

1、对临床实践的影响:

从“诊断”到“预测”的范式转移。

低成本、无创的早期风险筛查

PSG检查本身是常规项目。SleepFM模型可以附加在现有的PSG分析系统中,在完成常规睡眠障碍诊断的同时,自动生成一份“未来健康风险报告”,提示患者关注特定疾病风险,从而实现超早期干预。

人群健康管理的“哨兵”

结合可穿戴设备采集的简化版睡眠生理信号(如单导联心电、血氧),SleepFM的简化版本有望部署在社区或家庭,对高危人群(如老年人)进行长期、连续的睡眠健康监测,预警认知衰退、心脑血管事件等风险。

2、对技术路线的启示:

生物医学信号处理的“GPT时刻”来临?

这项研究验证了基础模型范式在复杂时序生物信号上的可行性。继文本、图像、蛋白质之后,“睡眠信号基础模型”的成功,为心电、脑电、肌电等其他生物信号的大模型开发铺平了道路。未来可能出现一个统一的“生理信号基础模型”,成为数字医疗的底层基础设施。

3、对未来研究方向的开拓:

“睡眠组学”与多模态融合。

SleepFM提供了一个强大的特征提取器,其生成的“睡眠表征”可以看作是一种新的数字生物标志物。未来研究可以将其与基因组、蛋白质组、影像组和电子健康记录等多模态数据深度融合,构建更全面、更精准的个人健康风险画像,甚至揭示睡眠影响特定疾病的潜在生物学通路。

商业化路径与挑战:

技术转化路径清晰:首先作为医疗机构的辅助诊断/筛查软件(SaMD)进行认证和部署。长期来看,与可穿戴设备公司合作,开发消费级健康预警功能是更大市场。然而,其商业化速度将受制于监管审批(作为预后预测工具的认证标准)、数据隐私安全以及模型可解释性等要求。

04

总结与评价

尽管前景广阔,SleepFM及其代表的研究方向仍面临诸多现实局限与未解之谜:

数据偏差与代表性危机

 用于训练和测试的数据均来自因疑似睡眠问题而就诊的患者群体,无法代表健康普通人群。模型在真正无症状人群中的预测效能尚属未知,可能存在系统性偏差。

“黑箱”的医学伦理困境

 模型基于深度神经网络做出预测,其决策逻辑难以解释。当模型预测某人“未来五年痴呆风险极高”时,医生和患者都将面临巨大困惑:是哪些具体的睡眠特征导致了这一预测?该如何干预? 缺乏可解释性将严重阻碍其临床采纳。

临床效用与行动化缺口

高预测精度不等于高临床价值。模型预测出的风险,如何转化为有效的、个性化的预防或干预方案,是更大的挑战。目前这仍是一个开放的“下游”问题。

泛化能力的边界

 尽管在SHHS上表现良好,但模型在不同人种、不同文化背景、使用完全不同设备采集的睡眠数据上的表现,仍需大规模外部验证。

最终审视:SleepFM是一项令人瞩目的技术演示,它有力地论证了“睡眠中蕴藏着被严重低估的健康信息”这一假说。它更像一把强大的新“钥匙”,为我们打开了一扇观测健康风险的新窗口。然而,从这扇“窗口”看到的景象,到真正改变临床路径和个体健康结局,中间仍横亘着可靠性验证、伦理审查、临床整合和商业模式的漫漫长路。这项研究的真正价值,或许在于它明确地指出了一个充满希望的方向,并提供了首个可行的工具,邀请整个医学与工程学界共同探索这片未知的疆域。

▼ 参考资料

Thapa, R., Kjaer, M.R., He, B. et al. A multimodal sleep foundation model for disease prediction. Nat Med (2026). https://doi.org/10.1038/s41591-025-04133-4

END

撰文 | 郝娅婷

排版 | 王可豪

审核 | 医工学人理事会

扫码加入医工学人,进入综合及细分领域群聊,

参与线上线下交流活动

推荐阅读

医工学人公众号征稿须知

Nature Machine Intelligence | 清华大学团队开发基于统一扩散Transformer框架的多模态心血管信号生成模型

Cell Reports Medicine:龙尔平/万沛星团队发布大模型“圆桌会议”框架MCC,大幅提升医疗推理能力

正式会议通知:长三角-鄱阳科普创新大会

点击关注医工学人

本篇文章来源于微信公众号: 医工学人

发表回复