AST: Audio Spectrogram Transformer

[NTERSPEECH 2021]

Motivation

(1)为了更好的获得长距离全局上下文信息

作者认为AST模型可以捕获远程全局上下文,甚至在最低层。

(2)CNN的分类方式不是必要的,可以简化

作者认为最近的趋势是在CNN的基础上增加一个自我关注机制。这种CNN-attention混合模型在许多音频分类任务中取得了最先进的(SOTA)结果,如音频事件分类、语音命令识别和情感识别。然而,由于纯粹基于注意力的模型在视觉领域的成功,有理由质疑CNN是否仍然是音频分类的必要条件。

(3)提出AST模型

这是一个无卷积、纯粹基于注意的模型,直接应用于音频谱图。AST的优点有三方面。首先,AST具有优越的性能:在各种音频分类任务和数据集上评估AST,包括AudioSet, ESC-5和Speech Commands。AST在所有这些数据集上的性能都优于最先进的系统。其次,AST自然支持可变长度的输入,可以应用于不同的任务,而不需要更改架构。相比之下,基于cnn的模型通常需要架构调优,以获得不同任务的最佳性能。最后,与SOTA CNNattention混合模型相比,AST模型架构更简单,参数更少,训练时收敛速度更快。

Method

A、作者提出首先,将t秒的输入音频波形转换为128维罗格梅尔滤波器特征序列,每10ms用25ms汉明窗口计算一次。这样就得到a128×100t光谱图作为AST的输入,将光谱图分割成一个N16×16补丁序列,在时间和频率维度上都重叠了6,其中N = 12d (100t − 16)/10e是patches的数量和Transformer的有效输入序列长度。使用线性投影层将每个16×16的patch压平成尺寸为768的一维补丁嵌入,把这个线性投影层称为补丁嵌入层。由于Transformer架构没有捕获输入顺序信息,而且补丁序列也没有时间顺序,在每个补丁嵌入中添加了一个可训练的位置嵌入(大小也为768),以允许模型捕获二维音频谱图的空间结构。此外,AST模型在序列的开头附加一个[CLS]标记。然后将得到的序列输入到Transformer。Transformer由多个编码器和解码器层组成。由于AST是为分类任务而设计的,所以只使用Transformer的编码器。

B、提出了一种将在ImageNet上预先训练的Vision Transformer (ViT)的知识转移到AST的方法。

实验步骤

(一)、AudioSet实验的数据集

训练集和测试集都是从AudioSet中提取一部分。

训练集:balanced  training  set(1% of  full set), full training set ,大小分别是22k,2M 。

测试集:evaluation set ,大小是20k。

(二)、消融研究

作者进行了一系列的消融研究来说明AST的设计选择。为了节省计算量,主要采用平衡的AudioSet进行消融研究。对于所有的实验,使用权重平均,但不使用集成。

(1)ImageNet预训练的影响

下图比较了ImageNet预训练的AST和随机初始化的AST。

从图中可以看出,ImageNet预训练AST在平衡和完整AudioSet实验中都明显优于随机初始化AST。在训练数据量较小的情况下,ImageNet预训练的性能提高更为显著,说明ImageNet预训练可以大大降低AST对域内音频数据的需求。

(2)预训练权重的使用对AST的影响

 

结果发现,使用在ImageNet2012上表现最好的蒸馏深度模型的权重的AST在AudioSet上也表现最好。

(3)位置嵌入式自适应的影响

发现重新初始化位置嵌入并没有完全打破预先训练的模型,因为模型仍然比完全随机重新初始化的模型表现得更好,但与提出的自适应方法相比,它确实导致显著的性能下降。这说明双线性插值和最近邻插值没有太大的区别。

(4)patch分割重叠的影响

平衡实验和全套实验的性能都随着重叠大小的增加而提高。然而,增加重叠也会导致更长的patch序列输入到变压器,这将二次增加计算开销。即使没有补丁分割重叠,AST仍然可以使其性能优于中之前最好的系统。

(5)patch形状和大小的影响

 

作者发现,当补丁面积相同的时,使用128×2矩形块比使用16×16方形块具有更好的性能。然而,考虑到没有基于128×2矩形块的ImageNet预训练模型,所以作者提出使用16×16仍然是目前的最优解决方案。

实验结果

总结

在过去的十年中,cnn已经成为音频分类的通用模型组件。在本文中,作者得出结论发现cnn并非不可或缺,并介绍了音频谱图转换器(AST),这是一种无卷积、纯粹基于注意力的音频分类模型,具有结构简单、性能优越的特点。

2022.2.4

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值