AST：Audio Spectrogram Transformer

冲冲冲鸭鸭鸭~

已于 2022-07-14 17:23:50 修改

阅读量969

点赞数 2

分类专栏：论文文章标签： transformer 深度学习人工智能

于 2022-05-14 14:53:56 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45922730/article/details/124719591

版权

论文专栏收录该内容

11 篇文章 5 订阅

订阅专栏

你的人生不会辜负你的。那些转错的弯，那些留下的泪水，那些低下的汗水，全都让你成为独一无二的自己。

目录

一、简单介绍

二、AST架构

三、AST与ViT的不同

四、消融实验

1、Impact of ImageNet Pretraining

2、 Impact of Positional Embedding Adaptation

3、 Impact of Patch Split Overlap

4、Impact of Patch Shape and Size

五、论文和代码链接

一、简单介绍

AST是无卷积、纯基于注意力机制的模型，它直接作用于音频频谱图，并能够获得长距离全局上下文。它是从用于图像分类的ViT模型迁移学习过来的。

二、AST架构

AST的输入就是通常使用的Log Mel filterbank特征，然后将谱图分割为一个个16x16的patch，每个patch会有重叠，通过patch重叠可以获得谱图的更多局部连续信息。在论文AST中，在时间和频率两个维度上会有6的重叠，在AudioTagging Done Right: 2nd comparison of deep learning methods for environmental sound classification那篇论文中，作者将stride调整为不同的值，研究stride的对模型的影响，发现stride越小，计算成本越大，但是stride越小，对小特征越有利。

谱图分割后输入到线性投影层，将得到patch embedding。由于patch序列也没有时间顺序，下面的Transformer Encoder也不能捕获输入patch的顺序信息，所以作者将patch embedding加上position embedding一起输入到Transformer Encoder中。此外，在每个序列的开始部分加上[CLS]，与[CLS]相对应的最终隐藏状态用作分类任务的聚合序列表示。通过Transformer Encoder后输出和输入的形状是一致的。我们只需要分类的信息，所以只需要提取出[CLS]生成的对应结果就行。接着通过线性层得到最终的分类结果。

三、AST与ViT的不同

四、消融实验

1、Impact of ImageNet Pretraining

2、 Impact of Positional Embedding Adaptation

3、 Impact of Patch Split Overlap

4、Impact of Patch Shape and Size

五、论文和代码链接

论文：https://arxiv.org/pdf/2104.01778.pdf

代码：GitHub - YuanGongND/ast: Code for the Interspeech 2021 paper "AST: Audio Spectrogram Transformer".

冲冲冲鸭鸭鸭~

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
2
评论
AST：Audio Spectrogram Transformer

目录一、简单介绍二、AST架构三、AST与ViT的不同四、消融实验 1、Impact of ImageNet Pretraining 2、 Impact of Positional Embedding Adaptation 3、 Impact of Patch Split Overlap 4、Impact of Patch Shape and Size 五、论文和代码链接 AST是无卷积、纯基于注意力机制的模型，它直接作用于音频频谱图，并
复制链接

扫一扫

专栏目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。