npj Digital Medicine | 48小时活动数据能揭示什么？中山大学团队多任务深度学习模型如何联合预测两大老年健康风险

★ 星标「医工学人」，第一时间获取医工交叉领域新闻动态

全球老龄化浪潮下，身体衰弱与跌倒恐惧构成数以亿计老年人的“双重困境”。传统评估依赖主观问卷与人工测试，既无法规模化，更割裂了两者的内在关联。中山大学联合中外团队在《npj Digital Medicine》发表研究，首次将可穿戴加速度计与多任务深度学习结合，仅凭48小时日常活动数据，即可同时预测衰弱状态（三分类F1达93.12%）与跌倒担忧水平（二分类F1达86.27%），为远程、客观、连续的老龄健康监测开辟了新范式。

文章图片预览

Figure 1. 按衰弱状态和跌倒担忧分层的研究对象的身体活动（PA）状态分布及条形码表示。亚组：a 健壮且跌倒担忧低；b 健壮且跌倒担忧高；c 衰弱前期且跌倒担忧低；d 衰弱前期且跌倒担忧高；e 衰弱且跌倒担忧低；f 衰弱且跌倒担忧高。

飞书文档 - 图片 — Figure 3. 平均注意力权重的可视化，展示每个输入特征对模型预测的相对贡献。特征分为四类：人口学与心理特征（如年龄、身体质量指数和流调中心抑郁量表得分）、全局复杂度指标（如熵和活动衍生指标）以及局部活动模式。

1. 被问卷掩盖的“双重困境”

身体衰弱——一种以肌力下降、步行缓慢、体力耗竭为特征的生理衰退状态——与对跌倒的持续性担忧，是全球65岁以上人群中最普遍又最易被忽视的两种老年综合征。前者影响着约10-15%的社区老年人，后者则在40%以上的老年人群中存在。

然而，当前临床评估这两种状况的标准工具——Fried衰弱表型（FFP）和国际跌倒效能量表（FES-I）——本质上依赖主观问卷和人工测试。FFP需要专业人员测量握力、步行速度，询问体重下降和疲惫感；FES-I则要求老年人自我评估对16项室内外活动的担忧程度。这些方法存在三重结构性缺陷：

第一，主观偏差。自报告问卷极易受到受访者情绪状态、社会期望效应和认知偏差的影响。正如文献中所指出的，不同个体可能对同一问题有截然不同的解读。

第二，无法规模化。这些评估需要专业人员在特定场景下执行，难以推广到远程医疗和居家监测场景，更无法实现连续动态追踪。

第三，也是最根本的缺陷——割裂了生理与心理的关联。临床研究早已证实，身体衰弱与跌倒恐惧之间存在显著的双向强化关系：衰弱导致活动受限和平衡能力下降，进而加剧跌倒担忧；而过度担忧又促使老年人主动减少活动，加速肌肉萎缩和机能退化，形成恶性循环。但传统评估工具将两者视为独立维度，既无法捕捉其相互影响，更错失了通过联合分析早期识别高风险人群的机会。

近十年来，可穿戴传感器和机器学习方法试图填补这一空白。已有研究利用加速度计提取步数、步速、活动时长等手工特征，对衰弱或跌倒担忧进行单独分类，在实验室环境下准确率可达80%以上。但这些方法仍受限于三个瓶颈：依赖人工设计的静态特征，忽略了连续加速度信号中丰富的时序动态信息；单独建模两个条件，未能利用其内在关联提升预测效能；且大多数研究在受控的实验室环境下采集数据，缺乏真实生活场景的生态效度。

2. 从加速度到临床标签的四级引擎

本研究的技术突破并非单点创新，而是构建了一条从原始加速度信号到临床预测标签的完整数据处理流水线。其核心架构可分解为四个层级：

第一级：活动状态量化——将连续信号“翻译”为行为序列

研究使用悬挂于颈部的三轴加速度计（PAMSys1），以50Hz采样率连续采集146名老年人48小时的三维加速度数据。原始信号首先通过信号幅度向量（SMV）融合三轴信息，再经Daubechies-4小波变换的五级离散小波变换滤波，有效去除重力分量和低频噪声。

滤波后的信号依据加速度波动特征被划分为静态（躺、坐）和动态（行走）状态，并进一步根据身体朝向、步频（分为<50、50-80、80-140、>140步/分钟四档）和行走时长（30秒和120秒为阈值）细分为16种物理活动状态。最终，每个参与者的48小时数据被压缩为长度为48的序列——每小时一个代表该小时内最主要活动状态的数字（1-16）。

第二级：双重特征提取——全局复杂度与局部时序动态的融合

研究提取了两类互补特征：

• 全局特征（206维）：包括单尺度复杂度指标（样本熵SE、信息熵Hn、Lempel-Ziv复杂度LZC、活动百分比）和多尺度复杂度指标（在1-100个时间尺度上计算的多尺度样本熵MSE和多尺度信息熵MHn及其平均值）。这些指标量化了活动模式的“不可预测性”和“丰富度”——健康老年人的活动模式通常更复杂多变，而衰弱或恐惧者的模式更单调、重复。
• 局部特征（16维）：通过双向长短期记忆网络（Bi-LSTM）从48小时的物理活动状态序列中自动学习，捕捉短时间内活动状态之间的转换规律和动态趋势，例如从坐到站、从走到停的过渡模式。

经过统计检验（Kruskal-Wallis检验），最终筛选出48个在两组任务中至少一项达到显著水平（p≤0.05）的特征，包括年龄、BMI、CES-D抑郁评分、以及45个全局复杂度和16个局部特征。

第三级：多任务学习与注意力机制——让模型“学会关注”

这是整项研究的核心技术引擎。与传统的单任务模型不同，该框架将身体衰弱（三分类：健壮/衰弱前期/衰弱）设为主任务，跌倒担忧（二分类：高/低）设为辅助任务，使用一个统一的神经网络同时优化两个目标。

Note

多任务学习的核心逻辑在于：两个任务之间存在已知的生理关联，通过共享底层特征表示和跨任务信息交互，模型能从每个任务中学到对另一个任务有帮助的信号，从而提升整体泛化能力。

模型的输入是64维拼接特征向量（2个人口学特征 + 1个心理特征 + 45个全局特征 + 16个局部LSTM嵌入）。这些特征首先输入到一个“任务感知”的注意力模块：对于辅助任务（跌倒担忧），模型生成一个注意力向量，突出对判断担忧水平最重要的输入特征；对于主任务（身体衰弱），第二个注意力机制在此基础上进一步整合辅助任务的输出，形成对主任务更有针对性的加权特征表示。最终，加权后的特征分别输入两个独立的全连接层，输出各自的分类结果。

为应对衰弱组仅占15.75%的类别不平衡问题，模型在损失函数中采用了Focal Loss——该损失函数通过降低“容易分类”样本的损失贡献，迫使模型聚焦于“难以分类”的少数类样本。

新旧技术范式对比：

维度	传统机器学习方法	本研究多任务深度学习框架
输入特征	手工设计的静态特征（步数、步速、活动时长）	全局复杂度特征（多尺度熵等）+ LSTM自动提取的局部时序特征
任务建模	单任务独立建模（衰弱或跌倒担忧选其一）	多任务联合建模，利用任务间信息交互提升性能
时序信息利用	忽略或简单聚合	Bi-LSTM捕捉48小时序列中的动态演变模式
特征重要性	依赖事后分析或不可解释	注意力机制可视化，定量展示每个特征的贡献权重
类别不平衡处理	欠采样/过采样或类别权重	Focal Loss自适应聚焦困难样本
评估环境	主要为实验室或混合环境	完全自由生活场景（48小时连续佩戴）

3. 实验与验证——数据如何说话？

研究纳入146名社区老年人（平均年龄约77岁，女性占78%），其中健壮50人、衰弱前期73人、衰弱23人；低跌倒担忧63人、高跌倒担忧83人。数据集按7:3划分为训练集和测试集，采用5折分层交叉验证进行模型选择。

核心性能数据：

• 身体衰弱三分类：准确率93.18%，精确率93.17%，召回率93.18%，F1分数93.12%
• 跌倒担忧二分类：准确率84.09%，精确率84.62%，召回率88.00%，F1分数86.27%

相比之下，最优单任务模型在衰弱任务上仅达到77.45%的准确率（SVM），在跌倒担忧任务上仅80.45%（决策树）。单纯使用LSTM或时间序列Transformer的序列模型表现更差（准确率约50-60%），证明仅靠原始序列而不结合全局复杂度特征，模型难以捕捉有意义的临床信号。

消融实验揭示了各组件的关键贡献：

移除全局特征后，衰弱任务的F1分数从93.12%暴跌至55.48%，跌幅最大，说明多尺度熵等复杂度指标是预测能力的基石。移除注意力机制后，F1降至67.81%，表明跨任务信息交互对性能有实质性增益。移除局部时序特征后，F1降至77.67%，证明短期活动动态信息同样不可或缺。移除人口学和心理特征（年龄、BMI、CES-D）后性能小幅下降至84.08%，说明这些变量起辅助但非决定性作用。

注意力热图的“可解释性洞察”：

通过可视化注意力权重，研究揭示了两项重要发现：

1. 共享特征：CES-D抑郁评分和多尺度信息熵特征（MHn8、MHn9、MHn13-16、MHn34）在两个任务中均获得高注意力权重，说明抑郁症状和活动模式的“多时间尺度复杂度”是驱动衰弱和跌倒恐惧的共同底层机制。

2. 差异化特征：衰弱任务额外依赖于局部时序特征（Local4-Local8、Local13、Local16），反映短期步态控制和运动转换能力的微变；而跌倒担忧任务则更依赖BMI、LZC和活动百分比等静态全局指标。这一差异提示：衰弱可能更接近生物力学层面的运动控制退化，而跌倒恐惧更多受到认知-情感层面的长期行为调控影响。

4. 影响与未来——从实验室到临床还有多远？

即时行业影响：

这项研究首次在完全自由生活场景下实现了对两种相互关联的老年综合征的联合、客观、高精度评估，其技术路径对多个产业方向具有直接启示：

• 数字疗法与远程康复：该框架可作为后端分析引擎，嵌入现有的智能手表、胸挂式或腰挂式健康监测设备，为老年人提供“无感式”日常风险评估，并在指标异常时触发早期预警和个性化干预建议。
• 老年医疗保险与健康管理：保险公司和健康管理机构可利用此类数字化评估工具，对投保人或会员进行远程、低成本、连续性的风险分层，精准识别高危人群并匹配差异化管理方案，有望降低跌倒相关医疗支出。
• 临床试验患者分层：药物或非药物干预临床试验中，该模型可作为客观、标准化的入组筛选和疗效评估工具，替代主观量表，提高试验质量和效率。

商业化路径与时间线：

当前该模型已在GitHub上公开代码（https://github.com/JingyiZhangKTH/Frailty_Concern_About_falling_Prediction），但距离大规模临床应用仍需跨越几道门槛：

• 短期内（1-2年）：需要在更大规模、更多样化（性别、地域、种族）、纵向追踪的数据集上验证模型泛化能力，并开发针对不同佩戴位置（手腕、腰部、胸部）的传感器适配方案。
• 中期（2-5年）：需完成医疗设备软件审批流程（如中国NMPA二类/三类医疗器械注册或美国FDA De Novo申请），证明其在真实临床环境中的有效性和安全性，并与电子病历系统集成。
• 长期（5年以上）：若验证成功，该技术有望成为老年健康管理的基础设施级工具，与远程医疗平台、社区养老服务和家庭智能终端深度融合，赋能“主动健康”和“预防性医疗”的新范式。

结尾：冷静的审视

这篇研究在技术层面展现了令人振奋的突破：它证明了深度学习模型不仅能在精心设计的实验场景中工作，更能从真实世界中嘈杂、不完美、仅有48小时的加速度数据中提取出高度有效的临床信号。其多任务学习架构、多尺度熵特征和注意力可解释性的组合，为可穿戴健康监测领域提供了一套完整、可复现、可扩展的技术范式。

但我们必须保持审慎的乐观。研究团队自身也坦诚指出了若干局限：样本量仅146例且女性占78%，来自针对衰弱的纵向研究的二次分析，可能过度代表了高风险亚群，其结论是否适用于更广泛的老年人群尚待验证；悬挂式传感器在自由生活场景中可能因摆动、位置偏移等引入噪声，尽管采用了小波滤波等补偿措施，但无法完全消除；此外，本研究为横断面设计，未能捕捉衰弱与跌倒担忧的动态演变轨迹。

Note

最值得期待的方向，并非让模型在测试集上再提升几个百分点，而是如何将这项技术嵌入到老年人的日常生活中，在跌倒发生前、在衰弱不可逆前，为临床决策争取到那宝贵的“时间窗口”。

从更深远的视角看，这项研究真正触及了一个更大的命题——我们正在见证医疗健康评估从“基于事件的偶发测量”向“基于行为的连续感知”的范式转移。当AI能够从一个人如何走路、如何站立、如何坐着这些最平凡的日常行为中读懂其生理与心理的衰退信号，我们将拥有比问卷和量表更真实、更及时、更人本的“健康语言”。这条路依然漫长，但方向已然清晰。

参考资料

Zhang, J., Zhang, J., Shull, P. et al. Daily activity patterns from wearable accelerometry predict physical frailty and concern about falling. npj Digit. Med. (2026). https://doi.org/10.1038/s41746-026-02863-4

撰文 | 郝娅婷
审核 | 医工学人理事会扫码加入医工学人，进入综合及细分领域群聊，参与线上线下交流活动医工学人二维码