Molecular Psychiatry | 基因组交响乐如何被解码？AI正在重塑脑疾病风险预测的底层逻辑

星标“医工学人”，第一时间获取医工交叉领域新闻动态~

长期以来，精神分裂症、阿尔茨海默病等复杂脑疾病的预测，严重依赖于一个简单的“累加”模型——将数十万个基因变异效应简单相加。如今，这场由“加法”到“交响乐”的范式革命正在发生。机器学习不再预设规则，而是试图从海量、多模态的数据中，直接聆听基因、环境、影像之间复杂的“交响”互动，以挖掘出传统方法遗漏的、决定疾病风险的“隐秘信号”。尽管面临数据偏见、隐私壁垒与可解释性挑战，但结合联邦学习、因果推断等新兴工具，一个更精准、更个性化的脑疾病诊疗时代已见曙光。2025年11月1日，来自卡迪夫大学英国痴呆症研究所和卡迪夫大学医学院团队发表一篇文章题为“Decoding the genomic symphony: unravelling brain disorders through data integration and machine learning”（解码基因组交响乐：通过数据整合和机器学习揭示脑部疾病）。

01 线性范式的局限与挑战

当前的困境，源于一个过于成功的“简单”模型。

在脑疾病遗传学研究领域，过去二十年是“全基因组关联研究”（GWAS）和“多基因风险评分”（PRS）的黄金时代。GWAS像一台庞大的扫描仪，从数十万人的基因组中，逐一鉴定出与疾病有统计关联的单核苷酸多态性（SNP）。PRS则将这些SNP的效应值简单相加，形成一个预测个体患病风险的分数。

这套“发现-累加”范式取得了巨大成功：它证实了脑疾病的极端多基因性，并为主流精神分裂症、阿尔茨海默病等提供了目前最好的遗传风险预测工具（AUC约0.65-0.84）。

然而，其“简单”的核心假设，也构成了无法逾越的天花板：

1 . “累加”盲区：GWAS和PRS默认所有基因变异效应是独立的、可加的。但生物学上，基因之间、基因与环境之间存在复杂的非线性交互作用（上位效应），这些“交响”而非“独奏”很可能才是驱动疾病的关键。

2 . “弱信号”诅咒：单个基因变异对复杂疾病的风险贡献极低。PRS靠“人多力量大”堆叠效应，但机器学习所擅长的从复杂模式中提取微弱信号的能力，在简单的累加模型下无用武之地。

3 . “平均主义”陷阱：大型GWAS荟萃分析为求统计效力，常混合不同人群、不同诊断标准的样本。这导致其产出的“平均”效应值，可能模糊了在特定亚群中更显著的信号，限制了预测的精准度。

图2：构建更优模型，机器学习在脑疾病遗传学中的常见陷阱。

更棘手的是，单纯的遗传数据信息量已接近瓶颈。 文献指出，即便使用最先进的机器学习模型，仅凭遗传数据也未能显著超越PRS的预测性能。我们需要新的“钥匙”，来开启下一代风险预测的大门。

02 方法论跃迁：多维技术图谱

新范式不再预设“乐谱”（遗传模型），而是让AI直接“聆听”数据，自行谱写“交响曲”。

机器学习，特别是监督学习算法，正在被用来直接学习从基因型（以及更多数据类型）到疾病状态的映射函数。其核心创新不在于某个单一算法，而在于一套全新的方法论组合，旨在捕捉被“简单累加”模型忽略的复杂性。

新旧技术路径对比

维度	传统范式（GWAS/PRS）	AI驱动新范式	意义解读
核心假设	线性、可加、独立	预测平均风险（关联性）。	从“验证假设”到“生成假设”，能发现未知的交互模式。
数据利用	主要依赖基因型数据，处理单一模态。	多模态融合：基因 + 影像 + 蛋白组 + 临床记录 + 数字表型（如可穿戴设备）。	生物信号相互印证与增强。例如，加速计数据可在帕金森病临床诊断前7年识别前驱症状。
交互作用探测	基本忽略，或需手动预设并检验，计算负担大。	算法内置探测能力：如随机森林、梯度提升树能自动评估变量组合的重要性。	可系统性地挖掘基因-基因、基因-环境的复杂相互作用，无需先验知识。
模型与知识结合	相对割裂。PRS权重来自独立GWAS。	生物学知识嵌入：构建“生物学可解释神经网络”，将基因通路、调控网络等先验知识直接编码为网络连接或权重。	提升模型可解释性，确保发现结果具有生物学意义，而非数据“幻象”。
数据协作模式	中心化荟萃分析：需集中原始数据，存在隐私与法律壁垒。	联邦学习：模型参数而非数据在机构间加密流通，本地数据不出域，协作训练全球模型。	打破数据孤岛，在保护隐私的前提下汇聚统计效力，尤其有利于罕见病研究。
目标导向	预测平均风险（关联性）。	迈向因果推断：结合因果图等框架，估计个体治疗效应，回答“如果干预，结果会如何”。	从“预测谁会生病”到“指导如何干预”，直接服务于个性化医疗决策。

关键洞察：文献强调，机器学习并非“无假设”。算法的选择本身就隐含了处理遗传变异的方式。例如，基于树的算法在处理罕见变异（数据稀疏）时，会自然“学会”一个显性遗传模型。因此，技术的突破本质上是提供了更丰富、更灵活的“假设空间”供我们探索。

03 理论优势与现实落差分析

希望与挑战并存：实验数据揭示了AI的潜力与当前的现实瓶颈。

潜力证明：复杂模式的“捕手”

通过模拟研究，机器学习模型在探测特定类型的基因-基因相互作用上展现出独特优势。例如：

径向基函数支持向量机 擅长捕捉“异或”模式（XOR，即两个风险因素单独存在无害，但同时存在则致病）。

XGBoost 在识别“阈值”效应（即多个风险因素累积超过某一阈值后风险陡增）上表现更佳。

而传统的逻辑回归（即使加入交互项），则在“相乘”模式上表现尚可，但在更复杂的非线性模式上能力有限。

图3：扩展机器学习工具包——通过因果、联合、多模态和生物知情学习，解开脑部疾病的复杂性。

这表明，不同的AI算法是探测不同生物相互作用机制的“专用探测器”，为全面解码遗传复杂性提供了工具箱。

现实瓶颈：预测性能的“天花板”

尽管在探测交互作用上有潜力，但一个残酷的现实是：将AI（尤其是仅用遗传数据）应用于脑疾病风险预测，其性能（AUC）目前并未系统性超越传统的PRS。

关键实验：一项针对欧洲最大阿尔茨海默病数据库的基因组范围机器学习研究，虽然发现了一些新的潜在基因位点，但预测准确性并未超过PRS。

根本原因：

a . 信号本质弱：SNP多为因果变异的“代理”，且效应微弱，限制了任何模型（无论多复杂）的性能上限。

b . 数据异质性：大型队列的“平均”效应，稀释了在特定同质亚群（如病理确诊、特定年龄段）中可能更强的信号。

c . 过拟合风险：在高维遗传数据中，复杂的机器学习模型极易“记住”训练数据中的噪声，而非学到普适规律，导致在新数据上表现不佳。

验证范式的革新

为应对上述挑战，研究领域在验证方法上也在进化：

嵌套病例-对照/病例队列设计：在大型生物银行中更高效地利用数据，保持统计效力。

嵌套交叉验证：严格分离模型选择与性能评估流程，防止数据泄露导致的乐观偏差。文献指出，这在遗传学研究中仍应用不足。

外部验证的紧迫性：鉴于AI模型的灵活性，其在独立外部数据集上的可重复性面临严峻挑战，这成为检验其真实效用的试金石。

04 精准医学的转化路径展望

如果成功，这将不仅是预测工具的升级，更是脑疾病研究范式的重塑。

短期影响（未来3-5年）：

1 . 患者分层精细化：AI整合多模态数据的能力，将帮助识别出遗传、影像、生物标记物一致的生物亚型。例如，区分“tau蛋白主导型”和“神经炎症主导型”的阿尔茨海默病，为靶向疗法临床试验招募更同质的患者。

2 . 前驱期早期预警：结合数字表型（语音、步态、睡眠），AI模型能在临床症状出现前数年识别高风险个体，开启干预的黄金窗口。

3 . 药物重定位加速：因果机器学习模型可用于分析真实世界电子健康记录，模拟临床试验，快速识别现有药物对脑疾病的新治疗潜力。

中长期未来（5-10年）：

1 . 个性化预防方案：风险预测将不再是一个冷冰冰的分数，而是结合了遗传背景、生活方式、生理指标的动态评估，并生成个性化的预防建议。

2 . 临床决策支持核心：AI模型将整合到诊疗流程中，不仅预测风险，还能估算不同治疗方案（如药物、认知训练）对具体患者的潜在获益，辅助医生决策。

3 . 打破研究壁垒：联邦学习成为跨国、多中心脑科学研究的标准协作模式，在绝对保障数据隐私的前提下，汇聚全球力量攻克罕见脑疾病。

商业化路径：首先落地于医药研发（患者分层、生物标志物发现、数字终点），其次是高端健康管理和辅助诊断。最终，经严格临床验证的模型将集成到医院信息系统和移动健康平台中。

05 算法公平性与临床转化壁垒

在拥抱颠覆性潜力的同时，我们必须清醒地认识到横亘在前的三座大山：

1. 数据偏见与公平性危机

当前绝大多数高质量遗传和临床数据来自欧洲裔人群。在此数据上训练的模型，在其他人种中表现可能下降，甚至产生更高的误诊率，加剧全球健康不平等。文献警告，仅增加数据多样性是远水，当下急需开发算法去偏技术，并将“算法公平性”作为模型评估的核心指标。

2. “黑箱”与信任鸿沟

尽管可解释AI（如SHAP）提供了洞见，但复杂神经网络决策过程仍难完全透明。当模型建议“高风险”时，医生和患者需要知道“为什么”。将生物学先验知识嵌入模型是构建信任的关键一步，但这本身就是巨大的科学挑战。

3. 从代码到诊所的“最后一英里”难题

即使模型在论文中表现优异，其临床转化仍面临巨大障碍：需要专业的工程化部署、持续维护更新、与现有医疗系统集成、符合严格的医疗器械监管标准。此外，模型共享困难——与公布一个线性公式的PRS不同，共享一个深度学习模型需要完整的软件栈和环境，这在实践中极大地限制了其验证和应用。文献提到，未来可能需依赖“基础模型+检索增强生成”等新范式来降低使用门槛。

最终，解码脑疾病基因组交响乐的征程，不仅是算法的竞赛，更是一场关于数据伦理、跨学科协作和临床实用主义的严峻考验。技术的锋芒，最终需要在现实世界的复杂性与人性的需求中找到其真正的落点。

▼参考资料

Bracher-Smith, M., Escott-Price, V. Decoding the genomic symphony: unravelling brain disorders through data integration and machine learning. Mol Psychiatry 30, 5914–5925 (2025). https://doi.org/10.1038/s41380-025-03330-4

END

撰文 | 郝娅婷

编辑 | 吴苡齐

审核 | 医工学人理事会

扫码加入医工学人，进入综合及细分领域群聊，

参与线上线下交流活动