对Faster R-CNN中anchors的理解

最新推荐文章于 2024-03-18 14:51:32 发布

wshdkf

最新推荐文章于 2024-03-18 14:51:32 发布

阅读量4.1k

点赞数 4

分类专栏：目标检测

本文链接：https://blog.csdn.net/wshdkf/article/details/79100356

版权

目标检测专栏收录该内容

7 篇文章 0 订阅

订阅专栏

此处只是个人初步理解，或不准确！

1、首先明确一下，anchors机制是在region proposal networks（rpn）中应用的，而rpn的作用是由图像生成候选区域（建议框）。以往，生成候选区域用的都是传统方法，比如选择性搜索（selective search），而faster rcnn首次提出用深度卷积神经网络来实现这一功能。
2、首先关注一下这个卷积神经网络（亦即rpn）的输入和输出。比如，根据这个模型——models\rpn_prototxts\ZF\train_val.prototxt——的描述，我们可以知道，在训练rpn时，其输入是：data（图像数据），labels（建议框的分类标签：是前景还是背景），labels_weights（建议框分类损失的权重），bbox_targets（建议框的回归标签），bbox_loss_weights（建议框回归损失的权重）。其输出是：分类损失，回归损失，准确率。
3、针对输入输出进一步分析。既然是监督学习，我们知道，在训练时需要给它一对数据映射：输入数据及其标签。而我们想让rpn做的是：给rpn输入一张图像，rpn可以输出一些建议框来，这些建议框包含图像中有用的前景信息。这样，很自然地，在训练rpn时，也应该是输入一张图像，同时告诉它，这张图像里面真实的建议框（亦即“标签”）有哪些。当然，因为rpn还有区分前景和背景的任务，所以在训练时还需要告诉它每一个建议框是前景还是背景（亦即“分类标签”）。
4、anchors的作用就是用于生成前述第2段中的bbox_targets，同时也就是第3段中的“真实的建议框”。我们在准备训练faster rcnn的数据集时，准备的是某具体目标的类别标签和位置信息，并没有直接给定“真实建议框”的类别和位置信息。解决该问题的方法就是利用anchors机制，选择图像的m*n个位置，每个位置生成9个矩形框（也就是9个anchors），然后利用数据集中目标的类别和位置信息给anchors分类——如果某个anchor与真实目标的矩形框交叠率足够大，则认为该anchor类别为“正”；如果太小，则为“负”。此外还会用到其他一些机制，比如非极大值抑制，正anchor和负anchor各选128个用于训练，以及去除超出图像边界的anchor等。这样，图像中保留的anchors都分好了类别（前景/背景），而且它们都自带坐标信息，这些信息就可以作为建议框的标签信息，用于训练rpn了。
5、anchors与conv_proposal1层有关，同时，训练时所谓建议框的坐标信息并非实际意义上的坐标，而是一种参数化的坐标。faster rcnn论文中有论述。

wshdkf

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
5
评论
对Faster R-CNN中anchors的理解

此处只是个人初步理解，或不准确！1、首先明确一下，anchors机制是在region proposal networks（rpn）中应用的，而rpn的作用是由图像生成候选区域（建议框）。以往，生成候选区域用的都是传统方法，比如选择性搜索（selective search），而faster rcnn首次提出用深度卷积神经网络来实现这一功能。2、首先关注一下这个卷积神经网络（亦即rpn）的输入和输出。
复制链接

扫一扫

专栏目录