星标“医工学人”,第一时间获取医工交叉领域新闻动态~

当医生翻阅你厚厚的病历,他们试图从过去的记录中推断你未来的健康风险。这是一项依赖经验和有限统计工具的复杂任务。但现在,一个由顶尖科学家团队开发的AI模型,或许能比我们想象的更早、更全面地描绘出每个人独特的“生命健康地图”。9月17日,在《Nature》发表了一项突破性研究,来自德国癌症研究中心、欧洲生物信息学研究所等机构的科学家们,成功训练出一个类似ChatGPT的生成式AI模型——Delphi-2M。它并非学习语言,而是通过“阅读”公共生物医学数据集(UK Biobank)上近40万人的终身健康记录,学会了人类疾病进展的内在“语法”。

这个AI“预言家”的能力令人惊叹:它能基于你过去的每一次诊断、生活习惯,动态预测未来可能发生的1000多种疾病的风险,甚至还能告诉你,下一个健康事件大概会在何时发生。
我们熟知的GPT模型通过处理海量文本,掌握了语言的规律,从而能够生成流畅的对话和文章。这项研究的巧妙之处在于,科学家们将一个人的健康史看作是一段特殊的“生命文本”:每一次诊断、每一次体检记录,都像是一个个“单词”;而这些“单词”发生的时间,就是它们在“句子”中的位置。但与人类生命健康相关的文本远比普通语言复杂,它发生在连续的时间轴上。为此,研究团队对GPT-2架构进行了三项关键的改造,构建Delphi-2M生成式AI模型:
1.植入“时间感”(连续年龄编码):
他们用一种特殊的数学函数来编码年龄,让模型理解“30.5岁”和“30.6岁”之间的连续变化,而不是像处理单词那样离散地看待。
2.增加“节拍器”(双输出头设计):
他们为模型增加了一个全新的功能模块,专门用来预测从当前时刻到下一个健康事件(无论是疾病还是健康)之间的时间间隔。这让Delphi-2M从一个只会预测“下一个疾病事件是什么”(分类任务)的模型,升级为能同时预测“是什么”和“距离下一个事件的时间”,后一个输出头是基于指数等待时间模型,这是实现时间预测的关键。
3.理清“并发症”(时间掩码机制):
他们优化了模型的注意力机制,使其能妥善处理在同一天发生的多项诊断,这在现实医疗记录中十分常见。

图1:Delphi-2M架构示意。a:基于ICD-10诊断、生活方式和健康填充标记的健康轨迹示意图,每个标记记录于特定年龄。b:源自两大公共数据集UK Biobank和Denmark的训练、验证和测试数据。c:Delphi模型架构。红色元素表示与基础GPT-2模型相比的改动。"N×"表示连续应用Transformer块N次。d:包含(年龄标记)对的模型输入(提示)和输出(样本)示例。
经过这些改造,Delphi-2M脱胎换骨,成为了一个专为生命健康轨迹设计的强大工具。作者希望他们的系统有朝一日能够节省医疗保健专业人员的时间,并用于计算人口层面的疾病负担。
Delphi-2M的预测能力有多强?研究显示,在预测死亡风险方面,它的准确率(AUC达到0.97)远超现有临床评分工具。对于心血管疾病、痴呆症等多种复杂疾病,它的表现也与当前专业的单一疾病预测模型相当,甚至更好。
更令人兴奋的是它的“生成”能力。作为一个生成式模型,Delphi-2M可以为你模拟出数十种可能的未来健康状况的模拟。研究人员可以输入一个60岁个体的健康史,然后让模型生成一条或多条直到80岁的未来健康轨迹。这些模拟轨迹在统计上与真实世界的人群疾病发生规律高度吻合。
这项功能意义非凡。对于公共卫生部门,这意味着可以更精准地预测未来几十年特定区域或人群的疾病负担(例如,糖尿病或癌症患者数量),从而提前规划医疗资源。对于AI研究,这意味着可以创造出大量匿名的、不含任何真实个人信息的“合成健康数据”,用于安全地训练下一代医疗AI,彻底解决了患者隐私泄露的后顾之忧。
然而,Delphi-2M并非完美无瑕的水晶球。研究团队在文中揭示了模型背后的“阴影”——它忠实地学习了训练数据中的所有偏见,同时利用可解释AI方法(如SHAP值和嵌入空间分析)深入剖析了模型的决策依据。
例如,UK Biobank的参与者大多是自愿加入的,他们比普通人群更健康,这导致模型在评估普通人群,特别是年轻群体的死亡风险时可能过于乐观。此外,模型还学会了数据收集过程中的“捷径”:它发现,一旦一个人的档案里出现了“住院记录”,那么这个人未来再次出现其他通常在医院确诊的重病(如败血症)的预测概率会飙升。这可能并非纯粹的生物学关联,而是数据来源本身带来的偏见。
这些发现敲响了警钟:在将此类强大的AI应用于临床决策之前,我们必须极度审慎,理解其预测背后的逻辑,并对数据偏见进行纠正。正如研究者所强调的,Delphi-2M是辅助医生决策的强大工具,而非替代品。
目前,将生成式AI应用于复杂科学序列建模的理念正在多个前沿领域开花结果。
在药物研发领域,AI模型被用来生成具有特定药理特性(如高亲和力、低毒性)的全新小分子结构,大大缩短了新药发现的周期。
在材料科学领域,科学家们利用生成模型设计具有理想物理或化学性质(如超导性、催化活性)的新型材料晶体结构。
在蛋白质工程领域,类似于AlphaFold解决了预测问题,生成式模型正被用于从零开始设计具有全新功能的蛋白质,这些蛋白质可用于开发新疗法或生物催化剂。
这些应用与Delphi-2M的核心思想一致:都是通过从海量数据中学习复杂序列的内在“语法”,然后生成具有期望功能的、全新的、有价值的序列。
这项研究为我们描绘了AI在医疗领域激动人心的未来。研究团队指出,Delphi-2M的框架是开放的,未来可以轻松地整合更多维度的数据,比如基因组学信息、可穿戴设备数据、医学影像,甚至是电子病历中的自由文本。
一个整合了所有这些信息的多模态“超级Delphi”,将可能成为实现“精准医疗”和“预防医学”的终极导航系统。它能够为每个人量身定制筛查建议(譬如,“您的风险状况显示,应在35岁而非传统建议的40岁开始进行某项癌症筛查”),或者帮助医生在无数复杂的变量中,找到最佳的治疗路径。
从语言到生命,生成式AI正以我们始料未及的方式,开始解读人类最深层的秘密。Delphi-2M的诞生,无疑是这场伟大探索中的一个重要里程碑。
Shmatko, A., Jung, A.W., Gaurav, K. et al. Learning the natural history of human disease with generative transformers. Nature (2025). https://doi.org/10.1038/s41586-025-09529-3.
END
撰文 | 郝娅婷
排版 | 王可豪
审核 | 医工学人理事会
扫码加入医工学人,进入综合及细分领域群聊,
参与线上线下交流活动

推荐阅读
点击关注医工学人

本篇文章来源于微信公众号: 医工学人








