RPN+RCNN的改进

最新推荐文章于 2024-08-08 08:11:43 发布

wuhui868

最新推荐文章于 2024-08-08 08:11:43 发布

阅读量4.6k

点赞数 2

分类专栏：检测

本文链接：https://blog.csdn.net/wuhui868/article/details/53910393

版权

检测专栏收录该内容

3 篇文章 0 订阅

订阅专栏

一. A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

同样是基于RPN+RCNN的思想，在Faster RCNN的基础上做了两处改进：
1.RPN在提取proposal的时候，使用了单一尺度，不能很好的适应各种不同大小的目标
这里写图片描述
多尺度检测：

目标检测需要模板能够覆盖不同scale的图像：
图A，学习单一模板，在不同尺度的图像上做检测，图像金字塔的尺度一般为sqrt(2)/2
图B，学习多个模板，在同一个图像上做检测，缺点是每个模板去适应一个尺度
图C，是结合了两者的思想，图D，计算几个figure map，然后差值出figure金字塔
图E，是imagenet训练经常使用的方法，在原始图像上随机crop patch，并resize到固定大小
图F，是在faster rcnn的RPN阶段使用的方法，在同一个figure尺度，使用不同的模板
图G，融合使用不同卷积层的大小

第一阶段：Multi-scale Object Proposal Network
针对RPN，提取proposal的时候，使用了多尺度的思想：
这里写图片描述
另外，在每个分枝分别使用了5*5和 7*7的卷积核，对应的anchor大小也是预先设置的

可以看到，det8利于检测小目标，det64利于检测大目标

第二阶段：Object Detection Network
使用conv4-3进行检测，文章中所，低层包含更多的细节，适合做定位类的任务，高层包含更多的语义信息，适合做分类。
对特征进行反卷积上采样，来代替以前将输入进行放大。之前，在训练和测试的时候，都是将输入resize到1000*600，用以提高小目标的检出率，但是这么做，第一增大了计算量，同时并未增加额外信息。
另外，在做ROIPooling的时候，还使用了context上下文信息，即附加了ROI扩大了1.5倍截取出的特征图
这里写图片描述

二.HyperNet: Towards Accurate Region Proposal Generation and Joint Object Detection

文中的主要思想是使用多尺度的特征：
high level figure有丰富的语义信息，能够增加分类准确率
low level figure有大量的细节信息，能够增加定位精度
文章的目的是，通过极强的特征，在RPN阶段，提取尽量少的框（100个，以前是2000个），保证准确率和召回率，同时提高了效率，100个box是通过NMS之后，按照confidence选择top_k个
这里写图片描述
加速：
提取的特征经过ROI Pooling之后，会再使用3*3*4的卷积核，现把卷积调整到pooling之前