Conformer: Convolution-augmented Transformer for Speech Recognition 论文阅读笔记

最新推荐文章于 2023-06-29 23:37:24 发布

熠熠发光的白

最新推荐文章于 2023-06-29 23:37:24 发布

阅读量2k

点赞数 2

分类专栏：彩笔暑假计划

本文链接：https://blog.csdn.net/weixin_46524058/article/details/119142161

版权

彩笔暑假计划专栏收录该内容

12 篇文章 3 订阅

订阅专栏

Conformer: Convolution-augmented Transformer for Speech Recognition 论文鉴赏

Conformer：针对语音识别的卷积增强

by 熠熠发光的白

前言：这是我人生中第一次看相关论文！激动！主要是为了完成后面要学习的HW4的代码修改工作~

论文网址：https://arxiv.org/pdf/2005.08100.pdf

Abstract

近期Transformer和CNN的模型在自动语音识别领域表现出了良好的前景，要比RNN来的好得多。Transformer模型善于捕捉基于内容的基本交互，而CNN对于本地特性的利用也是十分有效的。我们通过结合两者的优势，通过对音频序列的局部和全局依赖进行建模，实现了最佳结果。为此，这里提出了一种卷积增强的语音识别转换器Conformer，它要比之前的Transformer和CNN模型要来的强得多。在LibriSpeech基准测试中，在不使用语言的基础上对于test/testother数据集分别给到了2.1%和4.3%的WER（word error rate），并在使用一门语言时达到了1.9%/3.9%的WER。同时，在只有10M参数的小模型下，也有着很有竞争性的2.7%/6.3%的WER。

Introduction

近年来RNN成为了较为主流的选择，而Transformer架构也在建模序列中得到了广泛应用，因为它有着高速的效率并能捕捉长短的交互，最近，CNN也开始因为其局部接受层而被ASR(自动语音识别)所接受。

然而，他们都有缺陷，transformer擅长较长的上下文，但是其概括fine-grained的能力要来的差得多（fine-grained，类内细分，可以理解为区分鸟的具体种类之类的），而CNN则在局部上表现较好，但是需要较多的层数来捕获全局信息。而Con-textnet采用了挤压-激励模块来捕捉上下文，但全局的捕获仍然存在不少限制。研究表明，将卷积和自我注意结合使用效果更佳，所以研究了如何在自动语言识别下进行结合操作，如图所示。

在这里插入图片描述

这个模型被命名为Conformer，并在LibriSpeech上获得了较好的成果，要比之前的Transformer变频器高上了15%。类似于两个马卡龙一般的feed-forward module配合上半层残差将multi-Head Self Attentio和Convolution Module连接起来。后面接了一个post layernorm（正则层），用于将层进行归一化。

Conformer Encoder

首先使用一个卷积子采样层来处理输入，然后用图1的conformer blocks来进行处理，特点就在于用这些conformer blocks 来替换。Conformer模块一共由四块组成，一块feed-forward模块，一块自注意模块，一块卷积模块和第二块feed-forward模块。2.1-2.3分别介绍了模块，并在2.4介绍了如何将它们组合在一块。