星标“医工学人”,第一时间获取医工交叉领域新闻动态~

语言交流是人类最基本的需求之一,但对于许多中风患者而言,构音障碍(Dysarthria)让他们失去了清晰表达的能力。现有的可穿戴静音语音系统(Silent speech systems)虽然展现了巨大的潜力,但往往难以实现无缝、连贯的语音输出,且严重缺乏真实的临床疗效验证。近期,由清华大学、剑桥大学以及伦敦大学学院等国际顶尖科研机构组成的研究团队在Nature Communications上发表了题为 “Wearable intelligent throat enables natural speech in stroke patients with dysarthria” 的最新研究。该研究开发了一款由人工智能驱动的“智能喉咙(Intelligent Throat, IT)”系统,巧妙结合了超灵敏柔性传感器与大语言模型(LLM),成功让中风失语患者恢复了流畅且富有情感的交流能力。

这项研究由中英多所名校联合攻关,其核心突破在于将尖端的柔性硬件与强大的生成式 AI 软件无缝结合,解决了长期以来机器合成语音“生硬”和“延迟”的痛点。 1. 捕捉微弱生机的“超灵敏电子皮肤” 对于构音障碍患者,他们虽然难以发出清晰的声带震动,但喉部肌肉依然有运动意图。 图 1. 智能喉咙(IT)系统的整体设计概念。上图展示了集成在颈部的超灵敏纺织传感器、信号处理单元以及如何将喉部运动转化为语音输出的完整工作流。

传统系统在将肌肉信号转化为语音时,由于逐词翻译的局限性,往往存在明显的延迟。
- Token 级处理:这款“智能喉咙”引入了 Token 级别(Token-level)处理技术,实现了实时、连续的语音解码。
- 零延迟体验:这种架构设计使得沟通几乎没有延迟,真正实现了人与人之间“无缝交流”的节奏感。

图 2. 基于大语言模型(LLM)的语音解码框架。上图详细描绘了系统如何通过 Token 处理单元进行特征提取、序列预测,并利用 LLM 代理进行实时语义纠错和预测。
研究团队在 5 名患有构音障碍的中风患者身上进行了真实的临床验证。
- 智能纠错与情感合成:系统内置的 LLM 智能代理能够智能纠正解码错误,并根据语境赋予语音自然的情感表达。
- 恢复社交能力:实验证明,该系统能够帮助发音含糊的患者生成连贯、准确的语音,显著提升了其生活质量。

图 3. 中风构音障碍患者的临床评估结果
尽管“智能喉咙”展示了卓越的性能,但在普及过程中仍需面对以下挑战:
1. 个体差异与模型泛化:构音障碍患者的肌肉受损程度各异。虽然系统具备纠错能力,但面对新患者时仍需一定的校准周期。
2. 复杂环境下的抗干扰能力:现实生活中的进食、咳嗽或剧烈运动会产生生理噪音,如何精准剥离“语音意图”仍是算法挑战。
3. 长期佩戴的耐用性:纺织传感器在反复拉伸和汗液侵蚀下的稳定性,以及实时运行 LLM 带来的功耗问题,仍需进一步优化。
这篇由清华、剑桥等多机构共同完成的研究,代表了“柔性可穿戴医疗设备”与“生成式人工智能(AIGC)”深度跨界融合的极佳范例。 “智能喉咙”不仅为失语患者找回了声音,更通过 LLM 的深度参与,重塑了患者与世界沟通的情感连接。随着硬件的进一步微型化和模型效率的提升,这项技术有望成为构音障碍康复领域的标准配置。
Tang, C., Gao, S., Li, C. et al. Wearable intelligent throat enables natural speech in stroke patients with dysarthria. Nat Commun 17, 293 (2026). https://doi.org/10.1038/s41467-025-68228-9 END 撰文 | 张越青 排版 | 周宇茜 审核 | 医工学人理事会 扫码加入医工学人,进入综合及细分领域群聊, 参与线上线下交流活动
推荐阅读
Nature Biomedical Engineering | 苏黎世大学新研究:基于多模态数据集的3D计算机断层扫描通用基础模型

点击关注医工学人
本篇文章来源于微信公众号: 医工学人








