星标“医工学人”,第一时间获取医工交叉领域新闻动态~

胃癌(Gastric Cancer, GC),它是全球第五大常见癌症,也是第四大癌症死因。这场危机的核心矛盾在于,早期胃癌的五年生存率高达95-99%,而一旦发展到晚期,生存率则骤降至30%以下。这一巨大的生存率差距凸显了一个残酷的现实:我们并非没有战胜胃癌的武器,而是在绝大多数情况下,发现得太晚了。
当前的诊断金标准——胃镜检查,虽然精准,却构成了胃癌防治中的“筛查悖论”。胃镜是一种侵入性检查,成本高昂,且需要专业的医疗人员操作,这使得其在大规模人群筛查中的应用举步维艰。尤其在像中国这样胃癌高发的地区,民众的筛查依从性低,导致成本效益不佳,大规模推广面临巨大挑战。传统的血清学检测,其筛查后引导胃镜检查的胃癌检出率仅为1.25%,提升有限,难以成为高效的初筛手段。
然而,在现代医疗体系中,一个未被充分开发的巨大数据金矿正静待发掘。每年,全球有数以亿计的非增强计算机断层扫描(CT)检查因各种临床原因被执行。这些海量、常规产生的医疗数据,长期以来被视为与胃癌筛查无关的“副产品”。一项发表于《自然·医学》(Nature Medicine)的题为“AI-based large-scale screening of gastric cancer from noncontrast CT imaging”(基于AI的CT平扫成像进行胃癌大规模筛查)的突破性研究,正试图将这些被忽视的数据转化为对抗胃癌的第一道防线。由浙江省肿瘤医院、阿里巴巴达摩院等机构的研究人员共同开发的深度学习模型——GRAPE(Gastric Cancer Risk Assessment Procedure with Artificial Intelligence),旨在通过分析常规的非增强CT影像,实现大规模、低成本的胃癌机会性筛查。这种“机会性筛查”的理念,代表了公共卫生策略的一次根本性转变:不再是耗费巨资组织健康人群进行专门的筛查项目,而是智能地利用每一次既有的临床诊疗行为和数据流,构建一张无形的、低成本的健康安全网。

GRAPE的技术核心在于其精巧的两阶段式架构,这一设计并非单纯的技术堆砌,而是对人类专家诊断思维的深刻模拟,旨在提升模型的效率、鲁棒性与可解释性。

1)第一阶段:精准定位,聚焦目标
当一幅包含整个腹部的3D CT图像输入模型后,第一阶段的分割网络(基于强大的nnU-Net架构)会迅速启动,其唯一任务是在复杂的腹腔解剖结构中精准地识别并分割出完整的胃部区域。这个过程好比一位经验丰富的放射科医生在阅片时,首先会快速定位到目标器官。通过生成一个精确的胃部3D边界框并进行裁剪,模型将后续的分析完全集中在感兴趣区域内。这种“注意力机制”的设计,极大地减少了无关信息的干扰,降低了计算资源的消耗,为第二阶段的精细分析奠定了坚实基础。
2)第二阶段:联合分类与分割,提供“诊断”与“证据”
经过裁剪的胃部区域图像随后被送入一个创新的双分支网络,进行联合分类与分割任务。
分割分支:负责在像素级别上对胃壁内的可疑肿瘤区域进行精细勾勒,生成一个可视化的分图。
分类分支:整合来自网络不同层级的深度特征图,进行全局分析,最终输出一个0到1之间的“GRAPE评分”,代表该患者患有胃癌的概率。
这种“分类+分割”的联合设计是GRAPE可信度的关键所在。它不仅给出一个“是否患癌”的结论性判断,更重要的是,它通过分割图直观地展示了做出此判断的“影像学证据”——即模型认为可疑的病灶位置和范围。这种设计极大地提升了模型的可解释性,解决了许多医疗AI模型面临的“黑箱”困境,允许临床医生能够审查、验证AI的判断依据,从而建立起对AI系统的信任。

1)核心发现一:多中心验证下的高精准度与泛化能力
一个医疗AI模型的真正价值,不仅在于其在“实验室”环境下的理论精度,更在于其在不同医院、不同设备、不同人群中保持稳定表现的“泛化”能力。GRAPE的研究设计直面这一挑战,通过严格的内部与外部验证,证明了其卓越的稳健性。
在包含1,298个病例的内部独立验证集中,GRAPE的表现堪称优异,其受试者工作特征曲线下面积(AUC)达到了0.970,敏感性为85.1%,特异性高达96.8%。然而,真正的考验来自于规模空前的外部验证。研究团队从另外16个医疗中心收集了18,160例前所未见的非增强CT数据,结果令人振奋:GRAPE在如此庞大且多样化的外部数据集上,依然保持了顶尖水准,AUC为0.927,敏感性为81.7%,特异性为90.5%。这一成果标志着GRAPE在很大程度上解决了医疗AI的“可移植性”危机,使其具备了作为区域性乃至国家级筛查工具的潜力。更深层次的数据分析揭示,模型的检出率与肿瘤的T分期(浸润深度)呈现出显著的正相关关系,对于T3/T4期的进展期胃癌,检出率飙升至90%以上,而与肿瘤在胃内的位置并无显著关联,这表明GRAPE对胃部进行了无死角的全面学习。

2)核心发现二:AI赋能放射科医生,实现“1+1>2”的人机协同
关于AI在医疗领域的角色,业界已经从最初“取代医生”的激进论调,转向更为理性的“人机协同”共识。GRAPE的研究通过精心设计的“读者研究”(Reader Study),为这一理念提供了强有力的临床证据。
在这项研究中,13名不同资历的放射科医生首先独立判读297份CT影像。结果显示,GRAPE的独立诊断性能(AUC为0.92)全面超越了所有人类医生(AUC范围在0.76至0.85之间)。然而,研究的真正亮点在于第二阶段:在GRAPE模型的辅助下,医生们的平均敏感性提升了21.8%,特异性提升了14.0%。这意味着医生们不仅找到了更多原本被遗漏的癌症病例,也更准确地排除了非癌症病例。这种协同效应在处理极难发现的早期胃癌(EGC)时表现得尤为突出,揭示了AI作为永不疲倦、不受主观偏见影响的“第二阅片者”的核心价值。

3)核心发现三:真实世界机会性筛查的革命性影响力
一项AI技术的最终价值必须在真实的临床环境中得到检验。GRAPE研究的第三阶段,便是在三家医院对连续就诊的78,593名患者进行的超大规模真实世界机会性筛查研究。
在两家区域性医院共计41,178名患者中,GRAPE自动分析了所有扫描。在被AI筛选出的高风险人群中,经过后续确认,胃癌的检出率分别达到了惊人的24.5%和17.7%,效率比传统筛查方法提升了超过15倍。更重要的是,在这些新发现的胃癌病例中,分别有23.2%和26.8%属于T1/T2期的早期胃癌,这意味着有四分之一的患者得以在疾病的早期阶段被发现。
一个具体的案例生动地诠释了这项技术的救生潜力。一名患者因肺部结节定期复查,在2023年10月的一次常规腹部CT检查中,放射科报告未提及胃部异常。然而,GRAPE系统在后台自动分析该图像时,给出了胃癌高风险的警示。6个月后,该患者因腹部不适就医,最终确诊为进展期胃癌。当研究团队回顾性分析6个月前那张“正常”的CT图像时,模型不仅给出了高风险评分,其分割图还清晰地勾勒出了当时可能处于T2期的早期病灶 1。这个案例清晰地展示了AI有能力在肿瘤引发任何临床症状之前的数月,就捕捉到其存在的蛛丝马迹,将诊断窗口大幅前移。


GRAPE的成功并非孤例,它是一个更宏大趋势的缩影——一个基于机会性筛查的AI新生态正在形成。值得注意的是,GRAPE背后的核心研发团队之一,阿里巴巴达摩院,此前也曾发表用于在非增强CT上早期筛查胰腺癌的PANDA模型。一个清晰的战略浮出水面:构建一个多癌种的AI筛查平台,利用一次常规CT扫描,对腹腔内的多个高危器官进行同步筛查,实现“一检多筛”的终极效率。
放眼全球,机会性AI的市场正逐渐清晰,主要分为三个赛道:
急性事件预警:以Aidoc为代表,专注于急诊科的危急重症快速警报。
慢性病风险管理:以被Nanox收购的Zebra Medical Vision为代表,专注于从CT中发现心脏病、骨质疏松等慢性病的早期标志物。
早期癌症筛查:GRAPE和PANDA正是这一新兴赛道的开创者。它们的技术挑战最大,但潜在的社会价值也最为深远
然而,从一项成功的追溯性研究到成为全球临床实践的标准配置,GRAPE仍有漫长的道路要走。首先,必须通过大规模的前瞻性临床试验来最终确证其临床有效性和成本效益。同时,算法本身也需要持续迭代,特别是要进一步提升对T1期等最早期胃癌病变的敏感性。其次,技术之外的挑战同样严峻,包括与医院现有IT系统的无缝集成、避免“警报疲劳”、以及数据隐私、算法公平性和法律责任归属等伦理和监管问题。
尽管挑战重重,但GRAPE所描绘的未来图景依然无比清晰和诱人。在一个理想的世界里,AI驱动的机会性筛查将成为医疗基础设施中一个看不见的、却无处不在的标准层。当一位患者因任何原因接受CT检查时,AI系统都能在后台静默运行,对其多个器官的健康风险进行全面评估。这种从被动响应到主动预防的根本性转变,将是人工智能为人类健康带来的最宝贵礼物。
[1] Hu, C., Xia, Y., Zheng, Z. et al. AI-based large-scale screening of gastric cancer from noncontrast CT imaging. Nat Med (2025).
https://doi.org/10.1038/s41591-025-03785-6
END
编辑 | 赵亚军
排版 | 张艳青
审核 | 医工学人理事会
扫码加入医工学人,进入综合及细分领域群聊,
参与线上线下交流活动

推荐阅读
点击关注医工学人
最新直播


本篇文章来源于微信公众号: 医工学人