AST: Audio Spectrogram Transformer

路飞快来找我

已于 2022-02-07 15:52:06 修改

阅读量2.4k

点赞数

分类专栏： PaperSummary 文章标签： transformer 深度学习人工智能

于 2022-02-07 15:48:10 首次发布

本文链接：https://blog.csdn.net/weixin_48994423/article/details/122809769

版权

PaperSummary 专栏收录该内容

22 篇文章 1 订阅

订阅专栏

[NTERSPEECH 2021]

Motivation

（1）为了更好的获得长距离全局上下文信息

作者认为AST模型可以捕获远程全局上下文，甚至在最低层。

（2）CNN的分类方式不是必要的，可以简化

作者认为最近的趋势是在CNN的基础上增加一个自我关注机制。这种CNN-attention混合模型在许多音频分类任务中取得了最先进的(SOTA)结果，如音频事件分类、语音命令识别和情感识别。然而，由于纯粹基于注意力的模型在视觉领域的成功，有理由质疑CNN是否仍然是音频分类的必要条件。

（3）提出AST模型

这是一个无卷积、纯粹基于注意的模型，直接应用于音频谱图。AST的优点有三方面。首先，AST具有优越的性能:在各种音频分类任务和数据集上评估AST，包括AudioSet， ESC-5和Speech Commands。AST在所有这些数据集上的性能都优于最先进的系统。其次，AST自然支持可变长度的输入，可以应用于不同的任务，而不需要更改架构。相比之下，基于cnn的模型通常需要架构调优，以获得不同任务的最佳性能。最后，与SOTA CNNattention混合模型相比，AST模型架构更简单，参数更少，训练时收敛速度更快。

Method

A、作者提出首先，将t秒的输入音频波形转换为128维罗格梅尔滤波器特征序列，每10ms用25ms汉明窗口计算一次。这样就得到a128×100t光谱图作为AST的输入，将光谱图分割成一个N16×16补丁序列，在时间和频率维度上都重叠了6，其中N = 12d (100t − 16)/10e是patches的数量和Transformer的有效输入序列长度。使用线性投影层将每个16×16的patch压平成尺寸为768的一维补丁嵌入，把这个线性投影层称为补丁嵌入层。由于Transformer架构没有捕获输入顺序信息，而且补丁序列也没有时间顺序，在每个补丁嵌入中添加了一个可训练的位置嵌入(大小也为768)，以允许模型捕获二维音频谱图的空间结构。此外，AST模型在序列的开头附加一个[CLS]标记。然后将得到的序列输入到Transformer。Transformer由多个编码器和解码器层组成。由于AST是为分类任务而设计的，所以只使用Transformer的编码器。

B、提出了一种将在ImageNet上预先训练的Vision Transformer (ViT)的知识转移到AST的方法。

实验步骤

（一）、AudioSet实验的数据集

训练集和测试集都是从AudioSet中提取一部分。

训练集：balanced training set(1% of full set), full training set ,大小分别是22k,2M 。

测试集：evaluation set ,大小是20k。

（二）、消融研究

作者进行了一系列的消融研究来说明AST的设计选择。为了节省计算量，主要采用平衡的AudioSet进行消融研究。对于所有的实验，使用权重平均，但不使用集成。

（1）ImageNet预训练的影响

下图比较了ImageNet预训练的AST和随机初始化的AST。

从图中可以看出，ImageNet预训练AST在平衡和完整AudioSet实验中都明显优于随机初始化AST。在训练数据量较小的情况下，ImageNet预训练的性能提高更为显著，说明ImageNet预训练可以大大降低AST对域内音频数据的需求。

（2）预训练权重的使用对AST的影响

结果发现，使用在ImageNet2012上表现最好的蒸馏深度模型的权重的AST在AudioSet上也表现最好。

（3）位置嵌入式自适应的影响

发现重新初始化位置嵌入并没有完全打破预先训练的模型，因为模型仍然比完全随机重新初始化的模型表现得更好，但与提出的自适应方法相比，它确实导致显著的性能下降。这说明双线性插值和最近邻插值没有太大的区别。

（4）patch分割重叠的影响

平衡实验和全套实验的性能都随着重叠大小的增加而提高。然而，增加重叠也会导致更长的patch序列输入到变压器，这将二次增加计算开销。即使没有补丁分割重叠，AST仍然可以使其性能优于中之前最好的系统。

（5）patch形状和大小的影响

作者发现，当补丁面积相同的时，使用128×2矩形块比使用16×16方形块具有更好的性能。然而，考虑到没有基于128×2矩形块的ImageNet预训练模型，所以作者提出使用16×16仍然是目前的最优解决方案。

实验结果

总结

在过去的十年中，cnn已经成为音频分类的通用模型组件。在本文中，作者得出结论发现cnn并非不可或缺，并介绍了音频谱图转换器(AST)，这是一种无卷积、纯粹基于注意力的音频分类模型，具有结构简单、性能优越的特点。

2022.2.4

路飞快来找我

关注

0
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
AST: Audio Spectrogram Transformer

[NTERSPEECH 2021]Motivation（1）为了更好的获得长距离全局上下文信息作者认为AST模型可以捕获远程全局上下文，甚至在最低层。（2）CNN的分类方式不是必要的，可以简化作者认为最近的趋势是在CNN的基础上增加一个自我关注机制。这种CNN-attention混合模型在许多音频分类任务中取得了最先进的(SOTA)结果，如音频事件分类、语音命令识别和情感识别。然而，由于纯粹基于注意力的模型在视觉领域的成功，有理由质疑CNN是否仍然是音频分类的必要条件。（3）提出AS
复制链接

扫一扫