一、综述
目前目标检测算法主要分为单阶段和双阶段两种,给自己做一个小总结
二、网络结构
1. R-CNN
步骤:
a.用选择性搜索(selective search)在图像上从下到上提取2000个左右可能包含物体的候选区域(the proposal regions)。因取出的区域大小各自不同,需要将每个region proposal缩放成统一的227×227大小并输入到CNN,将CNN的fc7作为特征。
b.把每个region proposal提取到的CNN特征用SVM进行分类,类别+背景。
c.使用回归器精细的修正候选框位置,对于每一个类,训练一个线性回归模型判定这个框是否框的完美。
缺点:
a.2000多个proposal region进行CNN特征提取和SCM分类,计算量很大,导致R-CNN检测速度慢,一张图需要47s。
b.几个模块分别训练,对存储空间消耗大。
Inspiration:2000多个proposal 都是图像的一部分,那么可以对图像做一次全图卷积,提取整个图像的CNN特征,然后将region proposal在原图的位置映射到feature map上,这样,对于一个图像我们只需要一次特征提取操作。之后将每个region proposal的feature输入到后续的全连接层中。
但是每个region proposal的尺度不一样,而全连接层必须是固定输入的长度,所以直接把每个region proposal的feature输入无法work。
2.SPP Net:Spatial Pyramid Pooling(空间金字塔池化)
目标检测相关论文解读与总结(持续更新)
最新推荐文章于 2024-05-25 16:26:19 发布