你的人生不会辜负你的。那些转错的弯,那些留下的泪水,那些低下的汗水,全都让你成为独一无二的自己。
目录
1、Impact of ImageNet Pretraining
2、 Impact of Positional Embedding Adaptation
3、 Impact of Patch Split Overlap
4、Impact of Patch Shape and Size
一、简单介绍
AST是无卷积、纯基于注意力机制的模型,它直接作用于音频频谱图,并能够获得长距离全局上下文。它是从用于图像分类的ViT模型迁移学习过来的。
二、AST架构
AST的输入就是通常使用的Log Mel filterbank特征,然后将谱图分割为一个个16x16的patch,每个patch会有重叠,通过patch重叠可以获得谱图的更多局部连续信息。在论文AST中,在时间和频率两个维度上会有6的重叠,在AudioTagging Done Right: 2nd comparison of deep learning methods for environmental sound classification那篇论文中,作者将stride调整为不同的值,研究stride的对模型的影响,发现stride越小,计算成本越大,但是stride越小,对小特征越有利。
谱图分割后输入到线性投影层,将得到patch embedding。由于patch序列也没有时间顺序,下面的Transformer Encoder也不能捕获输入patch的顺序信息,所以作者将patch embedding加上position embedding一起输入到Transformer Encoder中。此外,在每个序列的开始部分加上[CLS],与[CLS]相对应的最终隐藏状态用作分类任务的聚合序列表示。通过Transformer Encoder后输出和输入的形状是一致的。我们只需要分类的信息,所以只需要提取出[CLS]生成的对应结果就行。接着通过线性层得到最终的分类结果。
三、AST与ViT的不同
四、消融实验
1、Impact of ImageNet Pretraining
2、 Impact of Positional Embedding Adaptation
3、 Impact of Patch Split Overlap
4、Impact of Patch Shape and Size
五、论文和代码链接
论文:https://arxiv.org/pdf/2104.01778.pdf
代码:GitHub - YuanGongND/ast: Code for the Interspeech 2021 paper "AST: Audio Spectrogram Transformer".