B站视频(14min开始):https://www.bilibili.com/video/av33603018
概述
单目标检测任务,refine 候选框,放弃计算量大的多尺度测试
目标又快又好,引入RPN回归网络,框更紧致,精度提升
有回归网络,不用进行多尺度,对速度提升有帮助
整体框架
1.
kernel分支 127x127x3, 经过CNN得到 6x6x256,
经过 conv 得到 4x4x(2k x 256)的 kernel 一
conv 得到 4x4x(2k x 256)的 回归的kernel 二
2.
detection分支 255x255x3, 经过CNN得到 22x22x256 经过conv得到 20x20x256的feature map 三
经过conv得到 20x20x256的feature map 四
3.
一&三, 二&四 做卷积(相关)
得到 17x17 x 2k的输出 2代表对每个anchor2分类, k表示每个位置的数量,可以设置为3、5、7等
17x7 x k 的输出 4代表对每个anchor做回归
总结
完全数据驱动的 FCN ,
同时进行分类和回归,
测试时间可以设置为one shot detection的形式,
不需要在线训练和多尺度测试
1.
siamese网络就是一个没有padding的FCN
2.
RPN网络, LOSS分为回归loss,分类loss
训练阶段:对Siamese-RPN进行端到端训练
测试(推理inference)阶段:
第一帧(模板templlate)的图像经过 kernel的分支得到回归和分类的权重,在后续的帧只需要经过detection分支one-shot detection的过程,无在线更新。
实验
160FPS
归一化速度,EAO都很高
0.243 EAO
aoc 0.637 , 20像素的precision是0.851
ILSVRC 稠密标注
Youtube-BB 稀疏标记
5anchor 最好
7差是因为过拟合,加数据会好
大的center size意味着跟踪器能够使用anchor在从中心到更大距离搜索
用youtube然后使center size 大会表现好。不用youtube不是这样,因为rpn的区分能力不够好去使用大搜索范围。
加入youtube-bb之后,在17x17的feature map上每个位置都设置anchor是最好的选择