SuperYOLO 论文阅读笔记

论文地址
代码地址

感谢本文作者的开源,遥感多模态目标检测这一领域的开源代码太少了!!!!

标题

SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery

来源

IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING
(TGRS)

摘要

准确、及时地从遥感图像(RSI)中检测出包含几十个像素的多尺度小目标仍然具有挑战性。现有的大多数解决方案主要是设计复杂的深度神经网络来学习从背景中分离出来的物体的强特征表示,这往往会导致沉重的计算负担。在本文中,我们提出了一种准确而快速的遥感图像目标检测方法 SuperYOLO,它融合了多模态数据,并利用辅助的超分辨率(SR)学习对多尺度目标进行高分辨率(HR)目标检测,同时考虑了检测精度和计算成本。首先,我们利用对称紧凑的多模态融合(Multimodal Fusion,MF)从各种数据中提取补充信息,以改进 RSI 中的小目标检测。此外,我们设计了一个简单灵活的 SR 分支来学习 HR 特征表示,可以在低分辨率(LR)输入下从广阔的背景中区分小目标,从而进一步提高检测精度。此外,为了避免引入额外的计算量,在推理阶段丢弃 SR 分支,由于 LR 输入,减少了网络模型的计算量。实验结果表明,在广泛使用的 VEDAI 数据集上,SuperYOLO取得了75.09% (以mAP50计) 的准确率,比 SOTA 大型模型,如 YOLOv5l、YOLOv5x 和 RS 设计的 YOLOrs 提高了10%以上。同时,Super YOLO 的参数大小和GFLOPs 比 YOLOv5x 少约18倍和3.8倍。我们提出的模型与最先进的模型相比,显示出良好的精度-速度权衡。

模型结构

Overview of the proposed SuperYOLO framework.

  1. 低分辨率(LR)输入。
  2. 移除Focus模块:移除YOLOv5s中的Focus模块(YOLOv5的V6.0版本已经移除了它),因为 Focus 模块可能会牺牲目标检测精度,特别是对于易受分辨率影响的小目标
  3. 多模态融合(MF):对称紧凑的像素级多模态融合模块。
  4. 超分辨率(SR)辅助分支:学习高分辨(HR)率特征表示。
  5. 推理阶段移除了 SR 分支:避免引入额外的消耗。

多模态融合(MF)

MF

  1. 对于像素级融合,我们首先将输入的 RGB 图像和输入的 IR 图像归一化为 [0, 1] 的两个区间。将输入模态 X R G B X_{\mathrm{RGB}} XRGB, X I R X_{\mathrm{IR}} XIR $\in $ R C × H × W \mathbb{R}^{C\times H\times W} RC×H×W下采样到 I R G B I_{\mathrm{RGB}} IRGB, I I R I_{\mathrm{IR}} IIR $\in $ R C × ( H / n ) × ( W / n ) \begin{aligned}\mathbb{R}^{C\times(H/n)\times(W/n)}\end{aligned} RC×(H/n)×(W/n),再馈送到 SE 模块(一种通道注意力机制)中提取通道域中的内部信息,生成 F R G B F_{\mathrm{RGB}} FRGB, F I R F_{\mathrm{IR}} FIR
    F R G B = S E ( I R G B ) , F I R = S E ( I I R ) . \begin{aligned}F_{\mathrm{RGB}}=SE(I_{\mathrm{RGB}}),\quad F_{\mathrm{IR}}=SE(I_{\mathrm{IR}}).\end{aligned} FRGB=SE(IRGB),FIR=SE(IIR).
  2. 然后,将揭示不同模态在空间域中内在关系的注意图定义为:
    m I R = f 1 ( F I R ) , m R G B = f 2 ( F R G B ) \begin{aligned}m_{\mathrm{IR}}=f_1(F_{\mathrm{IR}}),\quad m_{\mathrm{RGB}}=f_2(F_{\mathrm{RGB}})\end{aligned} mIR=f1(FIR),mRGB=f2(FRGB)
    其中 f 1 f_1 f1 f 2 f_2 f2 分别表示 RGB 和 IR 模态的 1 × 1 1\times1 1×1 卷积。
  3. 不同模态之间的内部空间信息由下式产生:
    F i n 1 = m R G B ⊗ F R G B , F i n 2 = m I R ⊗ F I R . F_{\mathrm{in}1}=m_{\mathrm{RGB}}\otimes F_{\mathrm{RGB}},F_{\mathrm{in}2}=m_{\mathrm{IR}}\otimes F_{\mathrm{IR}}. Fin1=mRGBFRGB,Fin2=mIRFIR.
  4. 为了融合内部视图信息和空间纹理信息,将特征添加到原始输入模态中,然后输入到 1 × 1 1\times1 1×1 卷积中。完整的特征如下:
    F f u l l = f 3 ( F i n l + I R G B ) , F f u l 2 = f 4 ( F i n 2 + I I R ) F_{\mathrm{full}}=f_{3}(F_{\mathrm{inl}}+I_{\mathrm{RGB}}),\quad F_{\mathrm{ful2}}=f_{4}(F_{\mathrm{in2}}+I_{\mathrm{IR}}) Ffull=f3(Finl+IRGB),Fful2=f4(Fin2+IIR)
    其中 f 3 f_3 f3 f 4 f_4 f4 表示 1 × 1 1\times1 1×1 卷积。
  5. 最后,对特征进行融合:
    F o = S E ( C o n c a t ( F f u l 1 , F f u l 2 ) ) F_o=\mathrm{SE}(\mathrm{Concat}(F_{\mathrm{ful}1},F_{\mathrm{ful}2})) Fo=SE(Concat(Fful1,Fful2))
    其中 C o n c a t ( ⋅ ) \mathrm{Concat}(\cdot) Concat() 表示沿通道轴的连接操作。然后将结果馈送到主干以产生多级特征。注意, X {\mathrm{X}} X 被下采样到原始图像的 1 / n 1/n 1/n 大小,以完成 SR 模块,并加速训练过程。其中 X {\mathrm{X}} X 表示 RGB 或 IR 模态,将采样图像记为 I ∈ R C × ( H / n ) × ( W / n ) I\in\mathbb{R}^{C\times(H/n)\times(W/n)} IRC×(H/n)×(W/n),由下式产生:
    I = D ( X ) I=D(X) I=D(X)
    其中 D ( ⋅ ) D(\cdot) D() 表示采用双线性插值的 n \text{n} n 次下采样操作。

超分辨率辅助分支(SR)

Backbone
SR structure of SuperYOLO

  1. 编码器——解码器结构
  2. 选择第四个和第九个模块的结果作为低级特征(局部纹理模式)和高级特征(语义信息)
  3. 编码器:
    1. 使用上采样操作来匹配低级特征的空间大小
    2. 使用 Concat 操作和两个 CR 模块来合并低级特征和高级特征
  4. 解码器:LR 特征被放大到 HR 空间,SR 的输出比输入大两倍
    1. 使用三个 Deconv(反卷积层)实现
    2. 引入 EDSR 探索 SR 性能

损失函数

  1. L t o t a l = c 1 L o + c 2 L s L_{\mathrm{total}}=c_1L_o+c_2L_s Ltotal=c1Lo+c2Ls (检测损失 L o L_o Lo,SR 重建损失 L s L_s Ls)。
  2. L s = ∥ S − X ∥ 1 . L_s=\left\|S-X\right\|_1. Ls=SX1. (L1 损失被用于计算输入图像 X X X 与 SR 结果 S S S 之间的 SR 重建损失 L s L_s Ls)。
  3. L o = λ l o c ∑ l = 0 2 a l L l o c + λ o b j ∑ l = 0 2 b l L o b j + λ c l s ∑ l = 0 2 c l L c l s \begin{aligned}L_o=\lambda_{\mathrm{loc}}\sum_{l=0}^2a_lL_{\mathrm{loc}}+\lambda_{\mathrm{obj}}\sum_{l=0}^2b_lL_{\mathrm{obj}}+\lambda_{\mathrm{cls}}\sum_{l=0}^2c_lL_{\mathrm{cls}}\end{aligned} Lo=λlocl=02alLloc+λobjl=02blLobj+λclsl=02clLcls( l l l 表示头部输出层, a l a_l al, b l b_l bl c l c_l cl是三个损失函数不同层的权重; 权重 λ l o c \lambda_{\mathrm{loc}} λloc, λ o b j \lambda_{\mathrm{obj}} λobj,以及 λ c l s \lambda_{\mathrm{cls}} λcls 调节框坐标、框维度、对象性、无对象性和分类之间的误差强调。)

总结

本文应该是目前遥感多模态目标检测领域 Github 收藏量最高的项目了,代码可读性很高,作者也在 lssues 上积极交流,感谢作者对遥感多模态目标检测的贡献!!!

  • 44
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值