经典的目标检测算法：CenterNet

DeepDriving

已于 2022-08-15 10:07:08 修改

阅读量2.2k

点赞数 7

分类专栏：自动驾驶与深度学习文章标签：目标检测算法深度学习

于 2022-07-15 10:58:02 首次发布

本文链接：https://blog.csdn.net/weixin_44613415/article/details/125799882

版权

自动驾驶与深度学习专栏收录该内容

23 篇文章 16 订阅

订阅专栏

主要思想

将目标检测当做一个标准的关键点估计问题，将目标表示为一个在其bounding box中心位置的单独点，其他的一些属性比如目标尺寸、维度、朝向和姿态等则直接从这个中心点位置的图像特征中进行回归。该模型将图像输入到一个全卷积网络中用来生成热力图，热力图的峰值位置即为目标的中心，每个峰值位置的图像特征用来预测目标bounding box的宽度和高度。该模型训练过程采用标准的监督学习方法，推理过程则是简单的网络前向传播而不需要在后处理中做非极大值抑制。
本文提出的是一个通用的目标检测方法，只需要在中心点的预测中添加一些额外的内容就可以非常简单地扩展到其他任务中去，比如3D目标检测和人体姿态估计。对于3D目标检测任务，本文是通过回归目标的绝对深度、3D bounding box维度和目标的朝向来实现的；而对于人体姿态估计任务，则是将2D关节位置视为距中心点的偏移量，并且在中心点位置直接回归得到它们。

在这里插入图片描述

原理

输入一张宽高分别为W和H的3通道图像 $I\in \Re^{W\times H\times 3}$ ，CenterNet模型会输出关键点的热点图 $\hat{Y} \in \left [ 0,1 \right ] ^{\frac{W}{R}\times \frac{H}{R} \times C}$ ，其中R表示热点图相对于输入图像的下采样因子，论文里默认为4；C表示关键点类别的数量，如果是用COCO数据集训练的2D目标检测任务那么C=80,如果是人体姿态估计任务那么C=17。在热点图中， $\hat{Y}_{x,y,c}=1$ 表示在(x,y)坐标位置检测到一个类别为c的关键点；反之，如果 $\hat{Y}_{x,y,c}=0$ 表示在该位置不存在类别为c的关键点。

作者采用ResNet、DLA、Hourglass等几种不同的编码-解码结构的全卷积神经网络从图像 $I$ 中预测关键点 $\hat{Y}$ ，训练方式沿用CornerNet的方法。对于ground truth中每个类别为c的关键点 $p\in \Re^{2}$ ，需要在下采样R倍后的热点图上计算一个等效的关键点 $\tilde{p} =\left \lfloor \frac{p}{R} \right \rfloor$ ：通过一个高斯核函数 $Y_{xyc} =exp(-\frac{(x-\tilde{p_{x}} )^{2}+(y-\tilde{p_{y}} )^{2}}{2\delta _{p}^{2} } )$ ，把ground truth中所有的关键点映射到热点图 $\in \left [ 0,1 \right ] ^{\frac{W}{R}\times \frac{H}{R} \times C}$ 中，其中 $\delta _{p}$ 是一个与目标尺寸有关的标准差。如果某个类别的两个高斯分布区域存在重叠，那么就直接取元素值最大的就可以。

对于一个类别为 $c_{k}$ 的目标 $k$ ，我们通常会用一个坐标为 $x_{1}^{(k)},y_{1}^{(k)},x_{2}^{(k)},y_{2}^{(k)})$ 的bounding box来表示它在图像中的位置，那么它的中心点坐标为 $p_{k}=(\frac{x_{1}^{(k)}+x_{2}^{(k)}}{2},\frac{y_{1}^{(k)}+y_{2}^{(k)}}{2})$ 。通过前面的知识我们知道，CenterNet模型就是通过关键点估计的方式来预测所有目标的中心点，但是只有一个中心点还不足以表达一个bounding box，还需要预测出它的尺寸 $s_{k}=(x_{2}^{(k)}-x_{1}^{(k)},y_{2}^{(k)}-y_{1}^{(k)})$ ，所以CenterNet用了一个分支 $\hat{S} \in \Re^{\frac{W}{R}\times \frac{H}{R} \times 2}$ 来预测目标的宽度和高度。为了减少因为下采样带来的中心点坐标精度误差，作者还添加了一个中心点坐标偏置预测分支 $\hat{O} \in \Re^{\frac{W}{R}\times \frac{H}{R} \times 2}$ 来进行补偿。

在这里插入图片描述

在推理阶段，首先从每个类别的热点图中提取峰值点，如果一个点的值大于等于它的8邻域内点的值，那么就认为这个点是一个峰值点，然后从这些候选的峰值点中选取前100个点作为检测到的中心点。对于n个检测到的中心点集合 $\hat{P}=\left \{ (\hat{x}_i,\hat{y}_i) \right \}_{i=1}^{n}$ 中类别为c的中心点 $\hat{P}_{c}$ ，它的置信度为 $\hat{Y}_{x_{i}y_{i}c}$ ，它的位置则用整型坐标值 $x_{i},y_{i})$ 来表示，以它为中心点的一个目标的bounding box可以通过下面的公式计算出来：

$(\hat{x}_{i}+\delta\hat{x}_{i}-\hat{w}_{i}/2,\hat{y}_{i}+\delta\hat{y}_{i}-\hat{h}_{i}/2,\hat{x}_{i}+\delta\hat{x}_{i}+\hat{w}_{i}/2,\hat{y}_{i}+\delta\hat{y}_{i}+\hat{h}_{i}/2)$

其中， $(\delta\hat{x}_{i},\delta\hat{y}_{i})=\hat{O}_{\hat{x}_{i},\hat{y}_{i}}$ 是预测的中心点偏置值， $(\hat{w}_{i},\hat{h}_{i})=\hat{S}_{\hat{x}_{i},\hat{y}_{i}}$ 是预测的宽度和高度值。需要注意的是，这里得到的bounding box的坐标只是相对于热点图尺寸的坐标，如果要得到相对于原始图像尺寸的坐标，还需要乘以前面提到的下采样系数 $R$ 。最终所有的目标信息都是直接通过上述关键点估计的方式得到而不需要基于IoU的非极大值抑制（NMS）或者其他后处理操作，因为峰值关键点选取的过程就是一次充分的NMS操作，这可以通过一个3x3的MaxPooling操作来实现。

损失函数

CenterNet的损失函数分为3个部分：

$L_{det}=L_{k}+\lambda_{size}L_{size}+ \lambda_{off}L_{off}$

其中 $L_{k},L_{size},L_{off}$ 分别为中心点预测分支损失函数、尺寸预测分支损失函数和中心点偏置预测分支损失函数，设置 $\lambda_{size}=0.1, \lambda_{off}=1$ 。

中心点预测分支损失函数

该分支损失函数采用focal loss损失函数：

$L_{k}=\frac{-1}{N} \sum_{xyc} \begin{cases} (1-\hat{Y}_{xyc})^{\alpha }\log_{}{(\hat{Y}_{xyc})} & if \, Y_{xyc}=1 \\ (1-Y_{xyc})^{\beta }(\hat{Y}_{xyc})^{\alpha }\log_{}{(1-\hat{Y}_{xyc})} & \text{otherwise} \end{cases}$