《CenterNet：Objects as Points》

最新推荐文章于 2022-12-30 22:58:00 发布

小苑同学

最新推荐文章于 2022-12-30 22:58:00 发布

阅读量100

点赞数

分类专栏：图像分割论文阅读笔记文章标签：深度学习 python

本文链接：https://blog.csdn.net/yuansiming0920/article/details/106216701

版权

图像分割论文阅读笔记专栏收录该内容

23 篇文章 3 订阅

订阅专栏

在这里插入图片描述
论文链接：
https://arxiv.org/pdf/1904.07850.pdf.

文章目录

1 Background and Motivation
2 Advantages/Contributions
3 Method
4 Experiments
5 Conclusion

1 Background and Motivation

目标检测为许多计算机视觉任务提供动力，比如实例分割、姿态估计、跟踪和动作识别等。它在监视、自动驾驶和视觉问题回答等下游方面都有应用。

当前的物体检测器通过紧密围绕物体的与轴对齐的bounding box 表示每个物体。然后，它们将目标检测减少为对大量潜在目标bounding box的图像分类。对与每个bounding box，分类器决定这个图像的内容属于前景还是背景。大多数成功的目标检测器大概列出了潜在对象位置的详尽列表，并对其进行分类。这是浪费，低效的，并且需要额外的后处理。

作者提出了一个简单有效的方法，即通过目标bounding box 的一个中心点来表示目标。其他的性质，如：物体大小、维度、3D范围、方向和姿态可以根据中心点位置的图像特征直接回归得到。因此目标检测问题变成了一个标准的关键点估计问题。作者通过把图像输入到全卷积网络中来获得热力图，热力图的峰值就是对应的目标中心，根据每个峰值的图像特征就可以预测出物体bounding box尺寸。这个方法可以扩展到很多其他任务上。通过预测每个中心点的额外输出，作者还提供了3D目标检测和多人人类姿态估计的实验。对于3Dbounding box估计，作者回归到对象的绝对深度，3Dbounding box尺寸和物体方向。为了进行人类姿态估计，作者将2D关节位置视为距中心的offsets，并在中心点位置直接回归到它们。在这里插入图片描述
作者提出的的基于中心点的方法CenterNet与相应的基于bounding box的检测器相比，是end-to-end可区分的，更简单，更快，更准确的。

2 Advantages/Contributions

提出基于 center point 的one-stage目标检测的方法——Objects as Points(CenterNet) ，充分挖掘和利用中心点的特征，快速精确的实现了目标检测！

3 Method

让 $\left ( x_{1}^{k},y_{1}^{k},x_{2}^{k},y_{2}^{k} \right )$ 为类别为 $c_{k}$ 的目标 $c$ 的bounding box，则它的中心点为 $\left ( \frac{x_{1}^{k}+x_{2}^{k}}{2},\frac{y_{1}^{k}+y_{2}^{k}}{2} \right )$ 。让 $I\in R^{W\times H\times 3}$ 是高为 $H$ ，宽唯 $W$ 的输入图像，则 keypoint heatmap $\hat{Y}\in \left [ 0,1 \right ]^{\frac{W}{R}\times \frac{H}{R}\times C}$ ，其中 $R$ 是output stride， $C$ 是关键点类型的数量。作者使用 $\hat{Y}$ 去预测所有中心点。对于每个目标 $k$ 回归目标大小为 $s_{k}=\left ( x_{2}^{k}-x_{1}^{k}, y_{2}^{k}-y_{1}^{k}\right )$ 。为了减小计算量，对于所有的类别都使用一个大小 $\hat{S}\in R^{\frac{W}{R}\times \frac{H}{R}\times 2}$ 。
对于center point 使用 $L_{1}$ loss： $L_{size}=\frac{1}{N}\sum_{k=1}^{N}\left | \hat{S}_{pk}-s _{k}\right |$
The overall training objective is ： $L_{det}=L_{k}+\lambda _{size}L_{size}+\lambda _{off}L_{off}$
对于每个类 $c$ 的关键点的ground truth： $p\in R^{2}$ ，然后把所有关键点的ground truth放进一个热力图 $\hat{Y}\in \left [ 0,1 \right ]^{\frac{W}{R}\times \frac{H}{R}\times C}$ 中，高斯核： $Y_{xyc}=exp\left ( -\frac{\left ( x-\tilde{p}_{x}^{2} \right )+\left ( y-\tilde{p}_{y}^{2} \right )}{2\sigma _{p}^{2}} \right )$ ， $\sigma _{p}^{2}$ 是一个目标合适大小的标准误差。其中 $L_{k}=\frac{-1}{N}\sum_{xyc}^{}\begin{cases} &\left ( 1-\hat{Y}_{xyc} \right )^{\alpha }log\left ( \hat{Y}_{xyc} \right ) \text{ if } Y_{xyc}= 1\\ _{} & \left ( 1-Y_{xyc} \right )^{\beta }\left ( \hat{Y}_{xyc} \right ) ^{\alpha }log\left ( 1-\hat{Y}_{xyc} \right ) \text {otherwise} \end{cases}$
$\alpha$ 和 $\beta$ 是focal loss的超参数。 $N$ 是图像 $I$ 中关键点的数量。实验中 $\alpha=2$ 和 $\beta=4$ 。为了恢复由输出步幅引起的离散化误差，作者另外预测了每个中心点的局部local offset： $\hat{O}\in R^{\frac{W}{R}\times \frac{H}{R}\times 2}$ 。所有类别 $c$ 共享相同的偏移量预测。 offset经过L1损失训练： $L_{off}=\frac{1}{N}\sum_{p}^{}\left | \hat{O}{\tilde{p}}-\left ( \frac{p}{R}-\tilde{p} \right ) \right |$
在这里插入图片描述