Cross-Modal Attentional Context Learning for RGB-D Object Detection 论文阅读笔记-CSDN博客

本文链接：https://blog.csdn.net/weixin_44326452/article/details/119387480

Cross-Modal Attentional Context Learning for RGB-D Object Detection 论文阅读笔记

文章是中山大学李冠彬老师一作的论文

文章是做RGB-D 目标检测的，RGB-D是特殊的图像，用RGB-D相机拍摄的图像除了RGB三个通道的信息外，还提供了配准的深度信息（大概是通过TOF进行深度测量的）
最开始做RGB-D目标检测是用R-CNN的框架，将RGB通道和D通道分别处理后再作为特征送进SVM进行分类和回归的。这样做有两个不足之处，一是没有利用RGB和D通道之间的联系，而是分别处理了；二是没有利用背景信息（R-CNN的特性）
本文就从上述两个问题入手，第一个问题利用跨模态特征融合的组件进行解决，第二个问题利用LSTM的去抓取全局背景信息来解决（注意力机制）。此外模型还利用STN抓取目标的高辨识度部位（注意力机制），从而提高分类的准确度。模型全称为 Cross Modal Attentional Context（CMAC）learning framework。
模型超出了SOTA有百分之三点多的map，并且对类内噪声和背景噪声更加鲁棒。

模型结构

模型结构如下，模型包括四个部分： feature extraction, cross-modal feature fusion, attention-based global context modeling 以及 fine-grained object part attention。
首先是利用Multiscale Combinatorial Grouping (MCG)根据RGB通道生成proposal（其实我很奇怪为什么不用RPN），然后是利用 “Learning Rich Features from RGB-D Images for Object Detection and Segmentation” 中的方法将RGB-D图像的深度信息编码为HHA特征。这样网络的输入是三个部分，一个是RGB部分，一个是代表深度信息的HHA部分，一给是proposal及其feature。
然后将RGB图送进卷积神经网络（VGG16）提取RGB特征，将HHA图送进卷积神经网络（AlexNet）提取深度特征，然后因为前面获得过proposal了，这里可以直接ROI pooling，对proposal对应的RGB 特征、proposal对应的HHA特征、全图的RGB特征、全图的HHA特征送进ROI pooling可以获取四个特征块，分别代表目标的局部RGB信息、目标的局部深度信息、图像的RGB全局信息、图像的全局深度信息。然后将global的RGB特征块和深度特征块concatenate到一起，局部的concatenate到一起，送进后面两个分支进行处理。
然后是global attention分支，将前面concatenate后的global特征块做一次1x1卷积，产生 $K\times K\times D$ 的特征图，对前面concatenate后的local特征块做一次1x1卷积，产生 $S\times S\times D$ 的特征图，然后将他们展平连接到一起作为 $(K^2+S^2)\times D$ 的特征图，作为LSTM的输入，最后生成 $K^2$ 的特征图变形为 $K\times K$ 的weight map后，用于对global 特征块进行加权平均，产生了D维向量，然后经过两层全连接生成1024维的向量，作为global attention分支的输出 $F_G$
object part attention看得不是很明白，要是能进李老师实验室再当面问问哈哈哈