SuperYOLO 论文阅读笔记

喜欢听风

已于 2024-03-09 11:59:53 修改

阅读量1.6k

点赞数 45

分类专栏：多模态目标检测文章标签：计算机视觉目标检测图像处理人工智能

于 2024-03-09 11:49:10 首次发布

本文链接：https://blog.csdn.net/wfuckfuck/article/details/136579926

版权

多模态目标检测专栏收录该内容

1 篇文章 1 订阅

订阅专栏

论文地址
 代码地址

感谢本文作者的开源，遥感多模态目标检测这一领域的开源代码太少了！！！！

标题

SuperYOLO: Super Resolution Assisted Object Detection in Multimodal Remote Sensing Imagery

来源

IEEE TRANSACTIONS ON GEOSCIENCE AND REMOTE SENSING
(TGRS)

摘要

准确、及时地从遥感图像（RSI）中检测出包含几十个像素的多尺度小目标仍然具有挑战性。现有的大多数解决方案主要是设计复杂的深度神经网络来学习从背景中分离出来的物体的强特征表示，这往往会导致沉重的计算负担。在本文中，我们提出了一种准确而快速的遥感图像目标检测方法 SuperYOLO，它融合了多模态数据，并利用辅助的超分辨率（SR）学习对多尺度目标进行高分辨率（HR）目标检测，同时考虑了检测精度和计算成本。首先，我们利用对称紧凑的多模态融合（Multimodal Fusion，MF）从各种数据中提取补充信息，以改进 RSI 中的小目标检测。此外，我们设计了一个简单灵活的 SR 分支来学习 HR 特征表示，可以在低分辨率（LR）输入下从广阔的背景中区分小目标，从而进一步提高检测精度。此外，为了避免引入额外的计算量，在推理阶段丢弃 SR 分支，由于 LR 输入，减少了网络模型的计算量。实验结果表明，在广泛使用的 VEDAI 数据集上，SuperYOLO取得了75.09% (以mAP50计) 的准确率，比 SOTA 大型模型，如 YOLOv5l、YOLOv5x 和 RS 设计的 YOLOrs 提高了10%以上。同时，Super YOLO 的参数大小和GFLOPs 比 YOLOv5x 少约18倍和3.8倍。我们提出的模型与最先进的模型相比，显示出良好的精度-速度权衡。

模型结构

Overview of the proposed SuperYOLO framework.

低分辨率（LR）输入。
移除Focus模块：移除YOLOv5s中的Focus模块（YOLOv5的V6.0版本已经移除了它），因为 Focus 模块可能会牺牲目标检测精度，特别是对于易受分辨率影响的小目标
多模态融合(MF)：对称紧凑的像素级多模态融合模块。
超分辨率（SR）辅助分支：学习高分辨（HR）率特征表示。
推理阶段移除了 SR 分支：避免引入额外的消耗。

多模态融合（MF）

对于像素级融合，我们首先将输入的 RGB 图像和输入的 IR 图像归一化为 [0, 1] 的两个区间。将输入模态 $X_{\mathrm{RGB}}$ , $X_{\mathrm{IR}}$ $\in $ $\mathbb{R}^{C\times H\times W}$ 下采样到 $I_{\mathrm{RGB}}$ , $I_{\mathrm{IR}}$ $\in $ $\begin{aligned}\mathbb{R}^{C\times(H/n)\times(W/n)}\end{aligned}$ ，再馈送到 SE 模块（一种通道注意力机制）中提取通道域中的内部信息，生成 $F_{\mathrm{RGB}}$ , $F_{\mathrm{IR}}$ ：
$\begin{aligned}F_{\mathrm{RGB}}=SE(I_{\mathrm{RGB}}),\quad F_{\mathrm{IR}}=SE(I_{\mathrm{IR}}).\end{aligned}$
然后，将揭示不同模态在空间域中内在关系的注意图定义为：
$\begin{aligned}m_{\mathrm{IR}}=f_1(F_{\mathrm{IR}}),\quad m_{\mathrm{RGB}}=f_2(F_{\mathrm{RGB}})\end{aligned}$
其中 $f_1$ 和 $f_2$ 分别表示 RGB 和 IR 模态的 $1\times1$ 卷积。
不同模态之间的内部空间信息由下式产生：
$F_{\mathrm{in}1}=m_{\mathrm{RGB}}\otimes F_{\mathrm{RGB}},F_{\mathrm{in}2}=m_{\mathrm{IR}}\otimes F_{\mathrm{IR}}.$
为了融合内部视图信息和空间纹理信息，将特征添加到原始输入模态中，然后输入到 $1\times1$ 卷积中。完整的特征如下：
$F_{\mathrm{full}}=f_{3}(F_{\mathrm{inl}}+I_{\mathrm{RGB}}),\quad F_{\mathrm{ful2}}=f_{4}(F_{\mathrm{in2}}+I_{\mathrm{IR}})$
其中 $f_3$ 和 $f_4$ 表示 $1\times1$ 卷积。
最后，对特征进行融合：
$F_o=\mathrm{SE}(\mathrm{Concat}(F_{\mathrm{ful}1},F_{\mathrm{ful}2}))$
其中 $\mathrm{Concat}(\cdot)$ 表示沿通道轴的连接操作。然后将结果馈送到主干以产生多级特征。注意， ${\mathrm{X}}$ 被下采样到原始图像的 $1/ n$ 大小，以完成 SR 模块，并加速训练过程。其中 ${\mathrm{X}}$ 表示 RGB 或 IR 模态，将采样图像记为 $I\in\mathbb{R}^{C\times(H/n)\times(W/n)}$ ，由下式产生：
$I = D (X)$
其中 $D(\cdot)$ 表示采用双线性插值的 $\text{n}$ 次下采样操作。

超分辨率辅助分支（SR）

Backbone
SR structure of SuperYOLO

编码器——解码器结构
选择第四个和第九个模块的结果作为低级特征（局部纹理模式）和高级特征（语义信息）
编码器：
1. 使用上采样操作来匹配低级特征的空间大小
2. 使用 Concat 操作和两个 CR 模块来合并低级特征和高级特征
解码器：LR 特征被放大到 HR 空间，SR 的输出比输入大两倍
1. 使用三个 Deconv（反卷积层）实现
2. 引入 EDSR 探索 SR 性能

损失函数

$L_{\mathrm{total}}=c_1L_o+c_2L_s$ (检测损失 $L_o$ ，SR 重建损失 $L_s$ )。
$L_s=\left\|S-X\right\|_1.$ (L1 损失被用于计算输入图像 $X$ 与 SR 结果 $S$ 之间的 SR 重建损失 $L_s$ )。
$\begin{aligned}L_o=\lambda_{\mathrm{loc}}\sum_{l=0}^2a_lL_{\mathrm{loc}}+\lambda_{\mathrm{obj}}\sum_{l=0}^2b_lL_{\mathrm{obj}}+\lambda_{\mathrm{cls}}\sum_{l=0}^2c_lL_{\mathrm{cls}}\end{aligned}$ ( $l$ 表示头部输出层， $a_l$ , $b_l$ ， $c_l$ 是三个损失函数不同层的权重; 权重 $\lambda_{\mathrm{loc}}$ , $\lambda_{\mathrm{obj}}$ ，以及 $\lambda_{\mathrm{cls}}$ 调节框坐标、框维度、对象性、无对象性和分类之间的误差强调。)

总结

本文应该是目前遥感多模态目标检测领域 Github 收藏量最高的项目了，代码可读性很高，作者也在 lssues 上积极交流，感谢作者对遥感多模态目标检测的贡献！！！

喜欢听风

关注

45
点赞
踩
43

收藏

觉得还不错? 一键收藏
0
评论
SuperYOLO 论文阅读笔记

准确、及时地从遥感图像（RSI）中检测出包含几十个像素的多尺度小目标仍然具有挑战性。现有的大多数解决方案主要是设计复杂的深度神经网络来学习从背景中分离出来的物体的强特征表示，这往往会导致沉重的计算负担。本文中提出了一种准确而快速的遥感图像目标检测方法 SuperYOLO，它融合了多模态数据，并利用辅助的超分辨率（SR）学习对多尺度目标进行高分辨率（HR）目标检测，同时考虑了检测精度和计算成本。
复制链接

扫一扫

专栏目录