WAV2VEC：语音识别非监督预训练模型

最新推荐文章于 2025-05-04 03:34:04 发布

翻译最新推荐文章于 2025-05-04 03:34:04 发布 · 1.2k 阅读

·

1

·

文章标签：

#语音识别 #人工智能

人工智能同时被 2 个专栏收录

151 篇文章

订阅专栏

15 篇文章

订阅专栏

本文介绍了WAV2VEC，一种用于语音识别的非监督预训练模型，对比DeepSpeech2，它显著降低了WER至2.43%，展示了在该领域的创新突破。模型结构包括encoder和context网络，以及后续的大型模型增强和目标函数。实验使用wav2letter++进行模型训练和评估，主要通过context网络输出进行解码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 简介

本文根据2019年《WAV2VEC: UNSUPERVISED PRE-TRAINING FOR SPEECH RECOGNITION》翻译总结的。

在图像、NLP领域，预训练已大放异彩，而语音识别领域尚缺乏。本文提的WAV2VEC就是语音识别方面的非监督预训练模型，也如论文题目所说。相比Deep Speech 2，WER（word error rate）从3.1%降到2.43%。

2 预训练方法

2.1 模型

原始的语音样本x；
特征表达z；
在这里插入图片描述

如上图所示，原始的语音应作用到两个网络，其中encoder 网络将x变成z，context 网络将z变成c。

在这里插入图片描述

encoder 网络和context 网络的层中都包括一个512 channels的causal convolution、一个group normalization layer 和一个 ReLU nonlinearity。

2.2 wav2vec large

encoder使用了两个附加的linear transformations；
context网络增加到12层，增加 kernel sizes (2, 3, . . . , 13).
也使用了skip connection，帮助收敛。
最后的context网络层，感受野增加到810毫秒。

2.3 目标函数

在这里插入图片描述

2.4 输入声学模型

在训练后，我们将c_i代替log-mel filterbank features输入到声学模型。

3 实验

我们使用wav2letter++工具包训练和评估声学模型。

3.1 Decoding

我们从context网络c输出(或者log-mel filterbank)来decode 单词序列y：
在这里插入图片描述

4 结果

从下表可以看出来，最好的wav2vec large相比Deep Speech 2，WER（word error rate）从3.1%降到2.43%。

在这里插入图片描述

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。