YOLOv9改进系列,YOLOv9颈部网络SPPELAN替换为FocalModulation

35 篇文章 4 订阅 ¥69.90 ¥99.00

在这里插入图片描述

摘要

焦点调制网络(简称FocalNets),其中自注意力(SA)完全由焦点调制模块取代,用于在视觉中建模标记交互。焦点调制包括三个组件:(i)焦点情境化,通过一堆深度卷积层实现,从短到长范围编码视觉上下文,(ii)门控聚合,选择性地将上下文聚集到每个查询标记的调制器中,以及(iii)逐元素仿射变换,将调制器注入查询中。广泛的实验表明,FocalNets表现出卓越的可解释性,并且在图像分类、目标检测和分割任务上,以类似的计算成本优于SoTA SA的对应模型(例如Swin和Focal Transformers)。具体来说,具有微小和基础规模的FocalNets可以在ImageNet-1K上分别达到82.3%和83.9%的top-1准确率。在ImageNet-22K上以224²分辨率进行预训练后,微调时分别在224²和384²分辨率下获得86.5%和87.3%的top-1准确率。
焦点调制网络(FocalNet)调制自动且逐渐聚焦于诱导识别类别的目标区域,如下图所示:
在这里插入图片描述

FocalModulation介绍

自注意力(SA)和FocalModulation焦点调制,如下图所示,给定查询token和目标token ,SA 首先执行查询-键交互以计算注意力分数,然后进行查询-值聚合以从其他token中捕捉上下文。相比之下,焦点调制首先将不同粒度级别的空间上下文编码为调制器,然后根据查询token自适应地注入到查询token中。显然,SA需要大量的交互和聚合操作,而焦点调制颠倒了它们的顺序,使两者都变得轻量化。
在这里插入图片描述
焦点调制计算公式如下:
在这里插入图片描述

其中 q(⋅) 是一个查询投影函数,m(⋅) 是上下文聚合函数,其输出称为调制器。焦点调制具有以下有利特性:
平移不变性:由于 q(⋅) 和 m(⋅) 始终以查询令牌 i 为中心,且不使用位置嵌入,调制对输入特征图 X 的平移不变。
显式输入依赖:通过在目标位置 i 周围聚合局部特征来计算调制 m(⋅),因此我们的焦点

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

挂科边缘

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值