AST:Audio Spectrogram Transformer

你的人生不会辜负你的。那些转错的弯,那些留下的泪水,那些低下的汗水,全都让你成为独一无二的自己。

目录

一、简单介绍

二、AST架构

三、AST与ViT的不同

四、消融实验

1、Impact of ImageNet Pretraining

2、 Impact of Positional Embedding Adaptation

3、 Impact of Patch Split Overlap

4、Impact of Patch Shape and Size 

五、论文和代码链接


一、简单介绍

        AST是无卷积、纯基于注意力机制的模型,它直接作用于音频频谱图,并能够获得长距离全局上下文。它是从用于图像分类的ViT模型迁移学习过来的。

二、AST架构

       AST的输入就是通常使用的Log Mel filterbank特征,然后将谱图分割为一个个16x16的patch,每个patch会有重叠,通过patch重叠可以获得谱图的更多局部连续信息。在论文AST中,在时间和频率两个维度上会有6的重叠,在AudioTagging Done Right: 2nd comparison of deep learning methods for environmental sound classification那篇论文中,作者将stride调整为不同的值,研究stride的对模型的影响,发现stride越小,计算成本越大,但是stride越小,对小特征越有利。

       谱图分割后输入到线性投影层,将得到patch embedding。由于patch序列也没有时间顺序,下面的Transformer Encoder也不能捕获输入patch的顺序信息,所以作者将patch embedding加上position embedding一起输入到Transformer Encoder中。此外,在每个序列的开始部分加上[CLS],与[CLS]相对应的最终隐藏状态用作分类任务的聚合序列表示。通过Transformer Encoder后输出和输入的形状是一致的。我们只需要分类的信息,所以只需要提取出[CLS]生成的对应结果就行。接着通过线性层得到最终的分类结果。

三、AST与ViT的不同

四、消融实验

1、Impact of ImageNet Pretraining

2、 Impact of Positional Embedding Adaptation

3、 Impact of Patch Split Overlap

4、Impact of Patch Shape and Size 

五、论文和代码链接

论文:https://arxiv.org/pdf/2104.01778.pdf

代码:GitHub - YuanGongND/ast: Code for the Interspeech 2021 paper "AST: Audio Spectrogram Transformer". 

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值