Nature Medicine | 仅凭一晚睡眠，预测130种疾病！斯坦福大学“睡眠AI”突破，是否颠覆了疾病预防体系？

星标“医工学人”，第一时间获取医工交叉领域新闻动态~

斯坦福大学研究团队开发出首个针对睡眠的多模态基础模型“SleepFM”，该项工作于2026年1月6日发表在《nature medicine》。它仅需分析一晚的多导睡眠监测数据，就能预测未来多种疾病风险。在超过5万人的测试中，该模型对包括全因死亡、痴呆症、心力衰竭等在内的130种疾病显示出强大的预测能力。这项研究不仅预示着睡眠数据作为健康预警系统的巨大潜力，更展示了基础模型在复杂生物医学信号处理上的通用性突破。

困局与挑战

长期以来，睡眠被认为是反映身心健康的“晴雨表”。临床上，多导睡眠图是评估睡眠的黄金标准，它能捕捉脑电、心电、肌电和呼吸等丰富的生理信号。然而，这片蕴含巨大价值的“数据富矿”，在疾病预测领域的开采却举步维艰。

第一个困局在于“数据孤岛与标准化之难”。来自不同医院、不同设备的PSG数据，在通道数量、类型、采样率上各不相同。这种异质性使得算法模型难以通用，每次应用都需要繁琐的数据对齐和重新训练，极大地阻碍了规模化分析。

第二个困局是“标注依赖与人力瓶颈”。传统方法依赖于人工标注（如睡眠分期、呼吸事件识别），这不仅耗时耗力、成本高昂，且存在评分者间的主观差异。更重要的是，疾病预测往往需要海量的标注数据来建立关联，而这种长期的、前瞻性的标注几乎不可能大规模获取。

第三个困局是“分析维度单一与“只见树木，不见森林””。多数研究仅关注睡眠的单一维度（如睡眠呼吸暂停指数）与特定疾病（如心血管病）的关联。这忽视了睡眠作为一个多系统协同的动态过程，其蕴含的跨模态、跨时间的复杂模式，远比单一指标更能揭示早期病理生理变化。

因此，尽管睡眠与疾病关联的证据日益增多，如何从纷繁复杂的PSG信号中，高效、自动化地提取出普适、高维度的健康风险特征，并实现跨数据源的鲁棒预测，成为一道待解的难题。

SleepFM模型

斯坦福团队提出的解决方案是SleepFM——一个专为睡眠设计的多模态基础模型。其核心创新在于将自然语言处理领域的“基础模型”范式，创造性地迁移到生物信号分析领域。

图1：SleepFM框架概述。

它如何工作？

预处理与“分词”

将所有PSG信号重采样至128Hz，然后将连续信号切割成5秒的片段，每个片段被视为一个基础“词元”。

通道/模态无关的编码器

信号通过一个一维卷积神经网络进行特征提取。关键设计在于其通道无关的注意力池化层。无论输入的是多少个脑电通道、几个心电通道，模型都能通过注意力机制将它们融合成统一的模态表征，从而天然兼容不同配置的设备数据。

时序关系建模

编码后的“词元”序列（覆盖5分钟的上下文窗口）被送入一个Transformer模块，学习信号内部的长程依赖关系。

无监督的“对比学习”预训练

这是模型学会“理解”睡眠语言的核心。团队提出了一种 “留一法对比学习” 算法。模型的任务是：给定脑电信号，它能从同一时间段的心电、呼吸等其他信号中找出“匹配”的那一个。这迫使模型学习不同生理信号之间的内在对齐和语义关联，而不是依赖任何疾病标签。

轻量级下游任务适配

预训练完成后，对于一个患者整晚（约8小时）的睡眠数据，模型可生成一个紧凑的“睡眠表征”向量。在预测具体疾病时，只需在此表征上添加一个轻量的LSTM或线性分类头进行微调即可，实现“一个模型，多种预测”。

维度	传统方法	SleepFM（新方法
数据依赖	高度依赖有标注数据，标注成本高	自监督学习，利用海量无标签PSG数据预训练
模型通用性	针对特定任务（如睡眠分期）或特定数据集定制，难迁移	基础模型，预训练后可通过微调适配多种下游任务（分期、疾病预测等）
数据兼容性	对数据格式、通道配置敏感，需严格标准化	通道/模态无关架构，能自动适应不同数据源的通道差异
预测维度	通常针对单一或少数几种疾病	可一次性预测130+种疾病的未来风险，实现“表型组”级别的扫描
核心创新	优化特定任务的模型性能	学习“睡眠”的通用表征，将PSG信号转化为可计算、可比较的“睡眠指纹”

核心论断: SleepFM的本质，是利用自监督学习从海量无标签数据中，构建出一个关于“健康睡眠生理模式”的通用参考坐标系。任何个体的睡眠数据都可以投影到这个坐标系中，其“坐标位置”的异常，就对应着未来特定的健康风险偏移。

实验与验证

研究团队在超过58.5万小时的PSG数据（来自6.5万名参与者）上预训练了SleepFM，并在独立数据集上进行了严格验证（图1）。

基础能力验证（证明其能“读懂”睡眠）:

年龄与性别预测:

仅凭睡眠数据，模型预测生理年龄的平均绝对误差为7.33年（皮尔逊相关性0.88）；区分性别的AUROC达到0.86。这表明模型确实捕捉到了与基本生理状态相关的睡眠特征。

睡眠分期与呼吸暂停:

在多个外部数据集上，其睡眠分期宏平均F1分数达0.70-0.78，与U-Sleep、YASA等专用模型表现相当。在呼吸暂停检测上，其严重程度分类准确率为69%，存在性分类准确率高达87%。

核心突破：疾病预测效能:

在斯坦福队列的测试集（5,019人）中，SleepFM展现了惊人的疾病预测广度与精度：

全因死亡率: C指数 0.84
痴呆症: C指数 0.85
心肌梗死: C指数 0.81
心力衰竭: C指数 0.80
慢性肾病: C指数 0.79

共计130种未来疾病的预测C指数或AUROC超过0.75（经多重检验校正后显著）。模型在神经系统疾病（如帕金森病AUROC 0.93）、循环系统疾病（如高血压性心脏病AUROC 0.88）和部分肿瘤（如前列腺癌、乳腺癌AUROC均达0.90）上表现尤为突出。

图2：按疾病类别分层的SleepFM在保留测试集（n = 5,019）上的表现。

1、泛化能力与稳健性检验

跨中心验证:

在一个完全未参与预训练的多中心数据集（Sleep Heart Health Study）上，仅用少量数据微调后，模型对中风、充血性心力衰竭等的预测依然强劲（AUROC 0.82-0.88），证明了其强大的迁移学习能力。

时间外推验证:

在来自2020年后的新患者数据上（训练数据截止2019年），模型对关键疾病（如死亡、心衰、痴呆）的预测性能保持稳定，表明其能抵抗临床实践随时间变化带来的分布偏移。

超越基线:

SleepFM显著优于仅基于人口统计学特征（年龄、性别、BMI等）的基线模型，也优于使用相同架构但不经预训练、直接端到端学习的模型。这直接证明了大规模自监督预训练的价值——它让模型学到了更本质、更具泛化力的生理表征。

图3：SHHS测试集（n = 2,000名参与者）的SleepFM预测表现。

影响与未来

SleepFM的研究如果能够走向成熟和应用，可能从三个层面重塑医疗健康领域：

1、对临床实践的影响：

从“诊断”到“预测”的范式转移。

低成本、无创的早期风险筛查

PSG检查本身是常规项目。SleepFM模型可以附加在现有的PSG分析系统中，在完成常规睡眠障碍诊断的同时，自动生成一份“未来健康风险报告”，提示患者关注特定疾病风险，从而实现超早期干预。

人群健康管理的“哨兵”

结合可穿戴设备采集的简化版睡眠生理信号（如单导联心电、血氧），SleepFM的简化版本有望部署在社区或家庭，对高危人群（如老年人）进行长期、连续的睡眠健康监测，预警认知衰退、心脑血管事件等风险。

2、对技术路线的启示：

生物医学信号处理的“GPT时刻”来临？

这项研究验证了基础模型范式在复杂时序生物信号上的可行性。继文本、图像、蛋白质之后，“睡眠信号基础模型”的成功，为心电、脑电、肌电等其他生物信号的大模型开发铺平了道路。未来可能出现一个统一的“生理信号基础模型”，成为数字医疗的底层基础设施。

3、对未来研究方向的开拓：

“睡眠组学”与多模态融合。

SleepFM提供了一个强大的特征提取器，其生成的“睡眠表征”可以看作是一种新的数字生物标志物。未来研究可以将其与基因组、蛋白质组、影像组和电子健康记录等多模态数据深度融合，构建更全面、更精准的个人健康风险画像，甚至揭示睡眠影响特定疾病的潜在生物学通路。

商业化路径与挑战：

技术转化路径清晰：首先作为医疗机构的辅助诊断/筛查软件（SaMD）进行认证和部署。长期来看，与可穿戴设备公司合作，开发消费级健康预警功能是更大市场。然而，其商业化速度将受制于监管审批（作为预后预测工具的认证标准）、数据隐私安全以及模型可解释性等要求。

总结与评价

尽管前景广阔，SleepFM及其代表的研究方向仍面临诸多现实局限与未解之谜：

数据偏差与代表性危机

用于训练和测试的数据均来自因疑似睡眠问题而就诊的患者群体，无法代表健康普通人群。模型在真正无症状人群中的预测效能尚属未知，可能存在系统性偏差。

“黑箱”的医学伦理困境

模型基于深度神经网络做出预测，其决策逻辑难以解释。当模型预测某人“未来五年痴呆风险极高”时，医生和患者都将面临巨大困惑：是哪些具体的睡眠特征导致了这一预测？该如何干预？缺乏可解释性将严重阻碍其临床采纳。

临床效用与行动化缺口

高预测精度不等于高临床价值。模型预测出的风险，如何转化为有效的、个性化的预防或干预方案，是更大的挑战。目前这仍是一个开放的“下游”问题。

泛化能力的边界

尽管在SHHS上表现良好，但模型在不同人种、不同文化背景、使用完全不同设备采集的睡眠数据上的表现，仍需大规模外部验证。

最终审视：SleepFM是一项令人瞩目的技术演示，它有力地论证了“睡眠中蕴藏着被严重低估的健康信息”这一假说。它更像一把强大的新“钥匙”，为我们打开了一扇观测健康风险的新窗口。然而，从这扇“窗口”看到的景象，到真正改变临床路径和个体健康结局，中间仍横亘着可靠性验证、伦理审查、临床整合和商业模式的漫漫长路。这项研究的真正价值，或许在于它明确地指出了一个充满希望的方向，并提供了首个可行的工具，邀请整个医学与工程学界共同探索这片未知的疆域。

▼ 参考资料

Thapa, R., Kjaer, M.R., He, B. et al. A multimodal sleep foundation model for disease prediction. Nat Med (2026). https://doi.org/10.1038/s41591-025-04133-4

END

撰文 | 郝娅婷

排版 | 王可豪

审核 | 医工学人理事会

扫码加入医工学人，进入综合及细分领域群聊，

参与线上线下交流活动