Cross-Modal Attentional Context Learning for RGB-D Object Detection 论文阅读笔记

Cross-Modal Attentional Context Learning for RGB-D Object Detection 论文阅读笔记

  • 文章是中山大学李冠彬老师一作的论文

  • 文章是做RGB-D 目标检测的,RGB-D是特殊的图像,用RGB-D相机拍摄的图像除了RGB三个通道的信息外,还提供了配准的深度信息(大概是通过TOF进行深度测量的)
  • 最开始做RGB-D目标检测是用R-CNN的框架,将RGB通道和D通道分别处理后再作为特征送进SVM进行分类和回归的。这样做有两个不足之处,一是没有利用RGB和D通道之间的联系,而是分别处理了;二是没有利用背景信息(R-CNN的特性)
  • 本文就从上述两个问题入手,第一个问题利用跨模态特征融合的组件进行解决,第二个问题利用LSTM的去抓取全局背景信息来解决(注意力机制)。 此外模型还利用STN抓取目标的高辨识度部位(注意力机制),从而提高分类的准确度。模型全称为 Cross Modal Attentional Context(CMAC)learning framework。
  • 模型超出了SOTA有百分之三点多的map,并且对类内噪声和背景噪声更加鲁棒。

模型结构

  • 模型结构如下,模型包括四个部分: feature extraction, cross-modal feature fusion, attention-based global context modeling 以及 fine-grained object part attention。
    在这里插入图片描述
  • 首先是利用Multiscale Combinatorial Grouping (MCG)根据RGB通道生成proposal(其实我很奇怪为什么不用RPN),然后是利用 “Learning Rich Features from RGB-D Images for Object Detection and Segmentation” 中的方法将RGB-D图像的深度信息编码为HHA特征。这样网络的输入是三个部分,一个是RGB部分,一个是代表深度信息的HHA部分,一给是proposal及其feature。
  • 然后将RGB图送进卷积神经网络(VGG16)提取RGB特征,将HHA图送进卷积神经网络(AlexNet)提取深度特征,然后因为前面获得过proposal了,这里可以直接ROI pooling,对proposal对应的RGB 特征、proposal对应的HHA特征、全图的RGB特征、全图的HHA特征送进ROI pooling可以获取四个特征块,分别代表目标的局部RGB信息、目标的局部深度信息、图像的RGB全局信息、图像的全局深度信息。然后将global的RGB特征块和深度特征块concatenate到一起,局部的concatenate到一起,送进后面两个分支进行处理。
  • 然后是global attention分支,将前面concatenate后的global特征块做一次1x1卷积,产生 K × K × D K\times K\times D K×K×D的特征图,对前面concatenate后的local特征块做一次1x1卷积,产生 S × S × D S\times S\times D S×S×D的特征图,然后将他们展平连接到一起作为 ( K 2 + S 2 ) × D (K^2+S^2)\times D (K2+S2)×D的特征图,作为LSTM的输入,最后生成 K 2 K^2 K2的特征图变形为 K × K K\times K K×K的weight map后,用于对global 特征块进行加权平均,产生了D维向量,然后经过两层全连接生成1024维的向量,作为global attention分支的输出 F G F_G FG
  • object part attention看得不是很明白,要是能进李老师实验室再当面问问哈哈哈
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值