anchor box --学习笔记

Wsyoneself

于 2022-08-20 20:07:58 发布

阅读量479

点赞数 1

分类专栏： cv 文章标签：深度学习目标检测人工智能

本文链接：https://blog.csdn.net/weixin_45647721/article/details/126443759

版权

cv 专栏收录该内容

34 篇文章 4 订阅

订阅专栏

translation-invariant anchors（平移不变锚）

at each sliding-window location, we simultaneously predict k region proposals, so the reg layer has 4k outputs encoding the coordinates of k boxes.（在每个滑动窗口位置，我们同时预测k个区域推荐，因此reg层有4k个输出，编码k个框的坐标）

the cls layer outputs 2k scores that estimate probability of object / not-object for each proposal.（cls层输出2k个分数，估计每个推荐的目标/非目标概率）

the k proposals are parameterized relative to k reference boxes, called anchors.（k个推荐相对于k个参考框（称为锚）进行参数化）

each anchor is centered at the sliding window in question, and is associated with a sca;e and aspect ratio.（每个锚定位于所讨论的滑动窗口的中心，并与比例和纵横比相关联)

we use 3 scales and 3 aspect ratios, yielding k=9 anchors at each sliding position.(我们使用3个尺度和3个纵横比，在每个滑动位置产生k=9个锚)

for a conv feature map of a size WXH (typically ~2,400), there are WXHXk anchors in total.(对于尺寸为WXH（通常为2400）的conv特征图，总共有WXHXk个锚)

an important property of our approach is that it is translation-invarient both in terms of the anchors and the functions that compute proposals relative to the anchors.(我们方法的一个重要特性是，它在锚和计算相对于锚的建议的函数方面都是平移不变性的)

传统滑动窗口进行检测的缺点：
1. 窗口尺寸固定，因此不适合形变较大的物体；窗口较多，运算量大（但使用锚策略不是更多吗）
2. 一个窗口只能检测一个目标，且无法解决多尺度问题。
anchor box：
1. 使用不同尺寸和不同长宽比的原因：得到更大的交并比。
2. 在加入anchor box思想之后，在训练集中，将每个锚框视为一个训练样本。因此，为了训练目标模型，需要标记每个anchor box的标签，这里的标签包括两个部分：类别标签，偏移量。
3. 目前anchor box的选择主要有三种方式：
  1. 人为经验选取
  2. k-means聚类
  3. 作为超参数进行学习
4. anchor box 在训练阶段的使用：
  1. 在目标检测时，首先生成多个锚框，然后为每个锚框预测类别以及偏移量，接着根据预测的偏移量调整锚框位置从而得到预测边界框，最后筛选需要输出的预测边界框。
  2. 已知每个目标的ground truth，使用交并比来对anchor box进行标注
  3. 找出与每个anchor box 交并比最大的真实边界框，然后将真实边界框的标签作为anchor box的标签，计算anchor box相对于真实边界框的偏移量。
5. anchor box在预测阶段的使用：
  1. 首先在图像中生成多个anchor box，然后根据训练好的模型参数去预测这些anchor box的类别和偏移量，进而得到预测的边界框。由于阈值和anchor box数量选择的问题，同一个目标可能会输出多个相似的预测边界框，这样不仅不简洁，而且会增加计算量，为了解决这个问题，常用的措施是使用非极大值抑制(NMS)。
  2. NMS：对于一个预测边界框，模型最终会输出会计算它属于每个类别的概率值，其中概率值最大对应的类别就是预测边界框的类别。在同一副图像上，把所有预测边界框(不区分类别)的预测概率从大到小进行排列，然后取出最大概率的预测边界框作为基准，然后计算剩余的预测边界框与的交并比，如果大于给定的某个阈值，则将这个预测边界框移除。这样的话保留了概率最大的预测边界框并移除了其他与其相似的边界框。接下来要做的就是从剩余的预测边界框中选出概率值最大的预测边界框计算过程重复上述的过程。