VAN(DWConv+DWDilationConv+PWConv)

1.引言

最初自注意力机制(self-attention)的提出是在NLP领域,但是由于其全局特征提取的能力,自注意力机制很快就席卷了CV领域。但是对于2D的图像,self-attention有以下不足:(1)将图像铺成1D序列损失了2D结构信息。(2)平方复杂度使得高分辨率的图片(如800*800)计算开销太大了。(3)仅仅提取了空间上的适应性,而忽视了通道channel维度的适应性。因此,基于LKA(Large Kernel Attention)提出一种新的网络架构VAN。尽管架构比较简单,就是DWConv+DWDilationConv+PWConv的叠加,但是它的表现却能与当前SOFT的视觉Transformer以及CNN相媲美。作为一种通用的骨干网络,在图像识别、目标检测、语义分割以及个体分割等下游任务中均取得很好效果。

2.实现方法

注意力模块的实现主要有两种,一是Transformer中的self attention,但是对于2D图像有三种缺陷;二是使用大核卷积(类似于MobileNet_V3中使用的SE模块),但是参数太多,计算开销过大。因此就提出将大核注意力模块分解的思想。

2.1大核注意力模块LKA

将大的卷积核分解成DWConv+DWDilationConv+PWConv的形式,

(1)DWConv提取局部细致特征

(2)DWDilationConv提取大范围特征

(3)PWConv提取通道C维度上的特征

经过以上三个阶段,计算得到对应像素点的权重。

3.整体架构

计算参数:

普通卷积:卷积核H*卷积核W*输入通道数*输出通道数

DW卷积:卷积核H*卷积核W *输出通道数

 

 由表5可以看出,d=3,K=21精度基本饱和并且计算参数不算多。

 由表1可以看出,VAN综合考虑了局部特征、大范围特征、空间适应性以及通道维度的适应性

 VAN由4个stage组成。每个stage由LKA模块以及前馈神经网络CFF组成,整体架构与transformer的self-attention+两层MLP的架构非常类似。(在ConNeXt中提到过,transformer表现的好与其架构的设计是分不开的)

与swin-transformer一致,每个stage第一个block都进行下采样down sample,模块图像分辨resolution都减小,而通道数channels增加。文中通过控制卷积的滑移步长stride来控制下采样率。除第一个block下采样外,其余block的输入输出特征图保持一致。

4.结果

4.1试验细节

在ImageNet上进行试验,数据增强方面,random clipping, random horizontal flipping, label-smoothing [59], mixup [102],cutmix [100] and random erasing [105] 。使用AdamW优化器训练了310个epochs,momentum=0.9, weight decay=5 × 10−2。初始学习率LR=5 × 10−4,使用下降的余弦cosin学习率,Layer-Scale技术,batch_size=1024,Exponential moving average (EMA)来提高训练过程。

4.2在ImageNet上实验结果

 由表6可知,VAN在top1上均取得最好的准确率,这还是在作者根据直觉调出的架构,相信对架构参数一些细节优化后,肯定还能提点。因为VAN综合了VIT和CNN,使用注意力综合了全局信息,又对局部细节进行了细致的处理。

消融实验

DWConv+DWDilationConv+PWConv缺一不可,

缺少DWConv,准确率下降0.5%;

缺少DWDilationConv,准确率下降1.3%,

缺少注意力机制,准确率下降1.1%;

缺少PWConv,准确率下降0.8%。

5.可视化分析

使用Grad-CAM进行可视化发现,在捕捉大范围特征的能力上优于SWIN_T以及ConvNeXt。

6.未来展望

(1)只是直觉的提出架构,架构参数还可继续优化。

In this paper, we only demonstrate an intuitive structure. There are a lot of potential improvements such as adopting different kernel size, introducing multi-scale structure and using multi-branch structure.

(2)大规模的自监督学习以及迁移学习。

综合了ViT与CNN架构的优势,能有提取2D结构的特征并且可根据输入动态的调整输出。

we believe VAN can achieve better performance in image self-supervised learning and transfer learning field.

 python的学习还是要多以练习为主,想要练习python的同学,推荐可以去看,他们现在的IT题库内容很丰富,属于国内做的很好的了,而且是课程+刷题+面经+求职+讨论区分享,一站式求职学习网站,最最最重要的里面的资源全部免费。

牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网求职之前,先上牛客,就业找工作一站解决。互联网IT技术/产品/运营/硬件/汽车机械制造/金融/财务管理/审计/银行/市场营销/地产/快消/管培生等等专业技能学习/备考/求职神器,在线进行企业校招实习笔试面试真题模拟考试练习,全面提升求职竞争力,找到好工作,拿到好offer。https://www.nowcoder.com/link/pc_csdncpt_ssdxjg_python

他们这个python的练习题,知识点编排详细,题目安排合理,题目表述以指导的形式进行。整个题单覆盖了Python入门的全部知识点以及全部语法,通过知识点分类逐层递进,从Hello World开始到最后的实践任务,都会非常详细地指导你应该使用什么函数,应该怎么输入输出。

牛客网(牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网)还提供题解专区和讨论区会有大神提供题解思路,对新手玩家及其友好,有不清楚的语法,不理解的地方,看看别人的思路,别人的代码,也许就能豁然开朗。

快点击下方链接学起来吧!

牛客网 - 找工作神器|笔试题库|面试经验|实习招聘内推,求职就业一站解决_牛客网

  • 2
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 5
    评论
linux命令大全,中文版本 Linux命令大全(修改版) 进行重新编译的说明 文件传输 bye ftp ftpcount ftpshut ftpwho ncftp tftp uucico uucp uupick uuto 备份压缩 ar bunzip2 bzip2 bzip2recover compress cpio dump gunzip gzexe gzip lha restore tar unarj unzip zip zipinfo 文件管理 diff diffstat file find git gitview ln locate lsattr mattrib mc mcopy mdel mdir mktemp mmove mread mren mshowfat mtools mtoolstest mv od paste patch rcp rhmask rm slocate split tee tmpwatch touch umask whereis which cat chattr chgrp chmod chown cksum cmp cp cut indent 磁盘管理 cd df dirs du edquota eject lndir ls mcd mdeltree mdu mkdir mlabel mmd mmount mrd mzip pwd quota quotacheck quotaoff quotaon repquota rmdir rmt stat tree umount 磁盘维护 badblocks cfdisk dd e2fsck ext2ed fdisk fsck.ext2 fsck fsck.minix fsconf hdparm losetup mbadblocks mformat mkbootdisk mkdosfs mke2fs mkfs.ext2 mkfs mkfs.minix mkfs.msdos mkinitrd mkisofs mkswap mpartition sfdisk swapoff swapon symlinks sync 系统设置 alias apmd aumix bind chkconfig chroot clock crontab declare depmod dircolors dmesg enable eval export fbset grpconv grpunconv hwclock insmod kbdconfig lilo liloconfig lsmod minfo mkkickstart modinfo modprobe mouseconfig ntsysv passwd pwconv pwunconv rdate resize rmmod rpm set setconsole setenv setup sndconfig SVGAText Mode timeconfig ulimit unalias unset 系统管理 adduser chfn chsh date exit finger free fwhois gitps groupdel groupmod halt id kill last lastb login logname logout logrotate newgrp nice procinfo ps pstree reboot renice rlogin rsh rwho screen shutdown sliplogin su sudo suspend swatch tload top uname useradd userconf userdel usermod vlock w who whoami whois 文档编辑 col colrm comm csplit ed egrep ex fgrep fmt fold grep ispell jed joe join look mtype pico rgrep sed sort spell tr uniq wc 网络通讯 dip getty mingetty ppp-off smbd(samba daemon) telnet uulog uustat uux cu dnsconf efax httpd ifconfig mesg minicom nc netconf netconfig netstat ping pppstats samba setserial shapecfg(shaper configuration) smbd(samba daemon) statserial(status ofserial port) talk tcpdump testparm(te

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

山上的小酒馆

谢谢支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值