目标检测：一文读懂 TTFNet (CVPR2020)

大林兄

已于 2022-04-10 10:37:28 修改

阅读量2.4k

点赞数 3

分类专栏：目标检测文章标签： opencv 计算机视觉目标检测深度学习

于 2022-04-06 22:05:49 首次发布

本文链接：https://blog.csdn.net/weixin_46142822/article/details/124001442

版权

目标检测专栏收录该内容

8 篇文章 6 订阅

订阅专栏

论文：Training-Time-Friendly Network for Real-Time Object Detection

论文链接：https://arxiv.org/pdf/1909.00700.pdf

代码链接： https://github.com/ZJULearning/ttfnet

文章目录

经典的 anchor-free 目标检测算法 FCOS 和 CenterNet 自提出以来，受到了业界广泛的关注，围绕其算法改进也层出不穷，本篇介绍的TTFNet就是其一，它改进了CenterNet，提出了一种利用高斯核对训练样本进行编码的方法，取得了更好的准确率和训练速度。

1 为什么提出 TTFNet？

本文旨在提高模型训练收敛速度，在CenterNet基础上做了进一步改进。

提高模型训练速度有2种潜在方式：(1) 增大学习率；(2) 减少使用数据增强，如果直接使用这两个方法一般会存在问题，增大学习率可能导致训练发散，而减少使用数据增强容易使模型过拟合。所以接下来的问题是：

做什么样的改进可以增大学习率而不影响模型性能？

使用 SGD 优化器，网络权重更新方式为：
$w_{t+1}=w_t-\eta\frac{1}{n}\sum_{x\in B} \bigtriangledown l(x,w_t)$
式中， $w$ 为网络权重， $n$ 为 batchsize， $\eta$ 为学习率， $l (x, w)$ 为损失函数， $B$ 为 minbatch sample

从上式可以看出，如果要增大 $\eta$ ，需要调大batchsize，根据 Linear Scaling Rule，见参考文献[1]，如果使用 $k$ 倍的 batchsize，则学习率可以增大到 $k$ 倍。

所以增大 $n$ ，就可以使用大的学习率，但是带来的问题是对硬件显存要求会大大增加。

有什么样的方法克服上述问题？

对于目标检测任务而言，训练样本指的的是bbox 样本。一张图片可能有多个检测目标，即对应多个bbox，所以网络权重更新可以进一步表达为：
$w_{t+1}=w_t-\eta\frac{1}{n}\sum_{x\in B}\frac{1}{m_x} \sum_{s\in S_x}\bigtriangledown l(s,w_t)$
式中， $m_x$ 指每张图片中bbox数量。

如果每张图片里的bbox数量相同，都为 $m$ ，则上式可以简化为：
$w_{t+1}=w_t-\eta\frac{1}{mn}\sum_{x\in B}\bigtriangledown l(s,w_t)$
所以增加目标的 encoder bbox 数量 $m$ 也能达到同样的效果。

如何增加 encoder bbox 数量？

一个 bbox 矩形框可以有如下3种定义方式：

(1) 采用2个对角点，bbox可以用4个参数描述 ( $x_1$ , $y_1$ , $x_2$ , $y_2$ )；

(2) 采用一个中心点和宽高尺寸，bbox用4个参数描述 ( $x_c$ , $y_c$ , $w$ , $h$ )；

(3) 采用一个源点和其与4条边的距离，bbox用6个参数描述 ( $x_o$ , $y_o$ , $l$ , $r$ , $t$ , $b$ )；

其中前两个定义方式是唯一的，而第三个的表达是不唯一的，不同的 ( $x_o$ , $y_o$ ) 对应着不同的 ( $l$ , $r$ , $t$ , $b$ )。

在这里插入图片描述

所以只要使用方式3就能对一个目标encoder出多个bbox，基于上述思考，本文的 TTFNet 就诞生了！

2 TTFNet 网络架构

在这里插入图片描述

输入端 — 输入端表示输入的图片。该网络的输入图像大小 $W$ 和 $H$ 分别512和512。
基准网络 — 基准网络用来提取图片特征。论文分别试验了ResNet 和 DarkNet。
Head输出端 — Head用来完成目标检测结果的输出。输出端的分支有3个，分别为 heatmap、offset和size，对应的输出尺度为( $W / R$ , $H / R$ , $C$ )、( $W / R$ , $H / R$ , $2$ ) 和( $W / R$ , $H / R$ , $2$ )，其中 $R$ 为 stride，论文中取4， $C$ 为目标种类。

3 TTFNet 实现细节

目标检测可以分为两部分：中心定位和尺寸回归，下面分别介绍：

3.1 TTFNet 如何中心定位？

假定属于 $c_m$ 类的第 $m$ 个GT bbox，其边框位置和尺寸为 ( $x$ , $y$ , $h$ , $w$ )：

step1：将边框线性映射到特征图的尺度上，映射后的边框为： ( $\lfloor \frac {x}{r}\rfloor$ , $\lfloor \frac {y}{r}\rfloor$ , $\frac {h}{r}$ , $\frac {w} {r}$ )= ( $x_0$ , $y_0$ , $h_0$ , $w_0$ ) ，其中 $\lfloor \rfloor$ 为取整操作，来限制中心像素的位置必然是整数。

step2：使用2D高斯核将GT bbox中心位置分散到热力图 $H_m\in R^{1× \frac{H}{r}× \frac{W}{r}}$ 上，高斯核为：
$K_m(x,y)=exp\left(-\frac{(x-x_0)^2}{2\sigma^2_x}-\frac{(y-y_0)^2}{2\sigma^2_y} \right)$
式中： $\sigma_x=\alpha w_0/6$ ， $\sigma_y=\alpha h_0/6$ ，这里 $\alpha$ 被设置成 0.54。

相比CenterNet的高斯kernnel，TTFNet的高斯kernnel进一步考虑了GT bbox的宽高比，如下图所示：

在这里插入图片描述

根据标签生成的目标位置热力图作为target，网络的位置分支输出 $\hat H\in R^{C× \frac{H}{r}× \frac{W}{r}}$ ，位置损失函数如下：
$L_{loc}=-\frac{1}{M}\sum_{xyc} \begin{cases} (1-\hat H_{ijc})^{\alpha}\cdot log(\hat H_{ijc}) & H_{ijc}=1\\ (1-H_{ijc})^{\beta_f}\cdot (\hat H_{ijc})^{\alpha_f} \cdot log(1-\hat H_{ijc}) & otherwise\\ \end{cases} \\$

与CeterNet的关键点损失类似，详细的解释请见博客：目标检测——CenterNet (CVPR2019) 论文详解。

3.2 TTFNet 如何尺寸回归？

在目标bbox区域内，类似的使用高斯 kernnel生成热力图 $S_m\in R^{1× \frac{H}{r}× \frac{W}{r}}$ ，其中高斯kernnel为：
$K_m(x,y)=exp\left(-\frac{(x-x_0)^2}{2\sigma^2_x}-\frac{(y-y_0)^2}{2\sigma^2_y} \right)$
式中： $\sigma_x=\beta w/6$ ， $\sigma_y=\beta h/6$

在 $S_m$ 中的非零部分定义为高斯区域 $A_m$ ，TTFNet 采取下图方式 d 将整个高斯区域内的所有像素点作为训练样本

$[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-aFTZta92-1649253520942)(C:\Users\Sunny\AppData\Roaming\Typora\typora-user-images\image-20220406200404578.png)]$

考虑 $A_m$ 中的一个像素 $(i, j)$ 以及下采样率 $r$ ，回归的目标就是从 ( $i r$ , $j r$ ) 到第 $m$ 个标注框的四个边的距离，用一个四维向量表示为 $(w_l,h_t,w_r,h_b)^m_{ij}$ ，在 $(i, j)$ 处的预测框则表示如下：
$\hat x_1=ir-\hat w_ls,\hat y_1=jr-\hat h_ts\\ \hat x_2=ir+\hat w_rs,\hat y_2=jr+\hat h_bs\\$
这里的 $(\hat x_1,\hat y_1,\hat x_2,\hat y_2)$ 是在图像尺度上而不是特征图尺度上的，尺寸回归分支的损失通过GIOU计算：
$L_{reg}=\frac {1}{N_{reg}}\sum _{(i,j)\in A_m}GIOU(\hat B_{ij},B_m)×W_{ij}$
式中： $N_{reg}$ 为回归样本的数量； $\hat B_{ij}$ 表示预测框 $(\hat x_1,\hat y_1,\hat x_2,\hat y_2)_{ij}$ ； $B_m$ 表示预测框 $x_1,y_1,x_2,y_2)_m$ 表示真实图像尺度上的第 $m$ 个标注框； $W_{ij}$ 表示采样权重，用来平衡每个样本对损失的贡献, $W_{ij}$ 公式如下：
$W_{ij}= \begin{cases} log(a_m)×\frac{G_m(i,j)}{\sum_{(x,y)\in A_m}G_m(x,y)} & (i,j) \in A_m\\ 0 & (i,j) \notin A_m \end{cases}$
式中： $G_m(i,j)$ 表示 $(i, j)$ 位置处的高斯概率， $a_m$ 表示第 $m$ 个标注框的面积。

3.3 如何理解 $W_{ij}$ 的设计

目标的尺度变化可能是很大的，大目标产生的正样本多，而小目标仅产生少量的样本，所以需要平衡大目标和小目标的正样本数差异，对于处于高斯区域内的像素点，由上式可知其权重可以进一步表达成：
$W_{ij}=\frac {log(a_m)}{\sum_{(x,y)\in A_m}G_m(x,y)}×G_m(i,j)=K×G_m(i,j)$
从上式可见， $W_{ij}$ 相当于是对 $G_m(i,j)$ 乘以一个系数 $K$ ，大目标 $K$ 系数小于小目标系数，所以相当于提高了小目标的样本权重。

3.4 Loss设计

TTFNet 总体 loss是定位损失和回归损失的加权求和结果，两个权重 $w_{loc}$ 和 $w_{reg}$ 分别是1.0和5.0：

$L=w_{loc}L_{loc}+w_{reg}L_{reg}$

4 TTFNet性能效果

下表中比较了TTFNet与其他模型的性能，其中TT表示训练时间，TTFNet的AP超过了SSD、YOLOV3和CenterNet，同时训练时间缩短了10倍多。

在这里插入图片描述

5 总结

TTFNet 论文的主要贡献包括以下几点：

融合了经典的anchor-free算法的经验：CenterNet 和 FCOS ，其中心定位借鉴了CenterNet, 尺寸回归借鉴了FCOS，同时改进了大小目标的权重平衡；
FFTNet提出的减少训练时间的思路可以扩展应用到其他目标检测模型上。

6 参考

[1] [Goyal et al. 2017] Goyal, P.; Dollar, P.; Girshick, R. B.; Noordhuis, ´ P.; Wesolowski, L.; Kyrola, A.; Tulloch, A.; Jia, Y.; and He, K. 2017. Accurate, large minibatch SGD: training imagenet in 1 hour. CoRR abs/1706.02677.

大林兄

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
目标检测：一文读懂 TTFNet (CVPR2020)

论文：Training-Time-Friendly Network for Real-Time Object Detection论文链接：https://arxiv.org/pdf/1909.00700.pdf代码链接： https://github.com/ZJULearning/ttfnet1 为什么提出 TTFNet？本文旨在提高模型训练收敛速度，在CenterNet基础上做了进一步改进。提高模型训练速度有2种潜在方式：(1) 增大学习率；(2) 减少使用数据增强，如果直接使用这两个方法一般
复制链接

扫一扫