Nature Machine Intelligence 纽约大学团队提出基于深度学习和语音生成技术的脑电-语音解码

最新推荐文章于 2025-01-21 14:12:24 发布

xwz小王子

最新推荐文章于 2025-01-21 14:12:24 发布

阅读量1.3k

点赞数 21

分类专栏：触觉感知与操作文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_44887311/article/details/137734317

版权

由于神经系统的缺陷导致的失语会导致严重的生活障碍，它可能会限制人们的职业和社交生活。近年来，深度学习和脑机接口（BCI）技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。开发神经-语音解码器的尝试大多数依赖于一种特殊的数据：通过皮层电图（ECoG）记录获取接受癫痫手术患者的数据。利用患有癫痫的患者植入的电极，在发音时收集大脑皮层数据，这些数据具有高时空分辨率，已经在语音解码领域帮助研究者获得了一系列很显著的成果，帮助推动了脑机接口领域的发展。

神经信号的语音解码面临着两大挑战。首先，用于训练个性化神经到语音解码模型的数据在时间上是非常有限的，通常只有十分钟左右，而深度学习模型往往需要大量的训练数据来驱动。其次，人类的发音非常多样，哪怕是同一个人重复说出相同的单词，语速、语调和音调等也会有变化，这给模型构建的表征空间增加了复杂性。早期的解码神经信号到语音的尝试主要依赖于线性模型，模型通常不需要庞大的训练数据集，可解释性强，但是准确率很低。近期的基于深度神经网络，尤其是利用卷积和循环神经网络架构，在模拟语音的中间潜在表示和合成后语音质量两个关键维度上展开。例如，有研究将大脑皮层活动解码成口型运动空间，然后再转化为语音，虽然解码性能强大，但重建的声音听起来不自然。另一方面，一些方法通过利用wavenet声码器、生成对抗网络（GAN）等，虽然成功重建了自然听感的语音，但准确度有限。最近，在一个植入了设备的患者的研究中，通过使用量化的HuBERT特征作为中间表示空间和预训练的语音合成器将这些特征转换成语音，实现了既准确又自然的语音波形。然而，HuBERT特征不能表示发音者特有的声学信息，只能生成固定统一的发音者声音，因此需要额外的模型将这种通用声音转换为特定患者的声音。此外，这项研究和大多数先前的尝试采用了非因果(non-causal)架构，这可能限制其在需要时序因果(causal)操作的脑机接口实际应用中的使用。

论文概要

在这里插入图片描述

为应对这些挑战，研究者在这篇文章中介绍了一个新型的从脑电（ECoG）信号到语音的解码框架，研究人员构建了一个低维度的中间表示(low dimension latent representation)，该表示通过仅使用语音信号的语音编解码模型生成(图 1）。研究提出的框架由两部分组成：一部分是ECoG解码器，它能将ECoG信号转化为我们可以理解的声学语

最低0.47元/天解锁文章