Siamese Tracking Victory Road

CFNet_CVPR2017
SiamFC_ECCV2016
SiamRPN_CVPR2018
DaSiamRPN_ECCV2018
DCFNet

前一段时间 VOT2018 竞赛发榜,3个项目冠军皆被国内团队摘得。3支队伍在知乎上的目标检测与跟踪专栏分享算法引来热议。而这其中最亮眼的莫过于 DaSiamRPN,在性能接近顶尖的同时,保持数十倍于对手的速度。DaSiamRPN 改进自孪生网络,一如当年的 KCF,虽不是首创,却将效果发挥到极致。

SiameseFC

SiameseFC 的基础网络为 AlexNet 的5层卷积,无 padding,添加 BN。SiameseFC 提取一对图像的特征,通过类似卷积的相关(correlation)操作方法,可以快速的实现模板与搜索区域中的17x17个小图像进行比对,输出的17x17的响应图,相当于每个位置和模板帧的相似度。SiameseFC 的 stride 为8, 网络输出的模板响应图分辨率较低。为了得到更高精度的位置,采用插值的方法,把分辨率放大16倍,达到与输入尺寸相近的大小。

SiameseFC 网络简单,然而基于模板匹配无法预测尺度上的变化,所以只能通过多尺度测试(3s)来预测尺度的变化,从而拉低了速度。

BN-AlexNet
BN-AlexNet
kernel
upsample
window
127x127x3
6x6x128
255x255x3
22x22x128
*
17x17
272x272
pos

反向传播时,xz分支如何处理?迭代两次?

训练数据:

ILSVRC VID 数据集4417个视频,超过2百万标注帧。

网络计算量

Type/StrideFilter ShapeInput SizeGFLOPs
Conv1 / s211x11x3255x255x30.98
MaxPool1 / s23x3123x123x96
Conv2 / g25x5x9661x61x961.86
MaxPool2 / s23x357x57x256
Conv33x3x25628x28x2560.56
Conv4 / g23x3x19226x26x1920.18
Conv5 / g23x3x12824x24x1280.10
Correlation6x6x12822x22x1280.002
total  3.7

SiamRPN

SiamRPN 通过引入物体检测领域中的区域推荐网络(RPN),回归目标框位置,避免 SiameseFC 中响应图插值和多尺度测试等操作,既提升了速度又得到更为精准的目标框。网络利用与 Faster R-CNN 算法类似的损失函数进行网络训练。

SiamRPN 基于 AlexNetFast R-CNN 中 RPN 基于 ZF-NetZF-NetAlexNet 的修改版,这意味着 SiamRPN 是在用 RPN 做相关(cross correlation)操作。

BN-AlexNet
BN-AlexNet
cls_t
reg_t
cls_d
reg_d
kernel
kernel
softmax
127x127x3
6x6x256
255x255x3
22x22x256
4x4x 256x2k
4x4x 256x4k
20x20x256
20x20x256
*
*
17x17x2k
17x17x4k
298k

网络计算量(仅为估计)

Type/StrideFilter ShapeInput SizeGFLOPs
Conv1 / s211x11x3255x255x30.98
MaxPool1 / s23x3123x123x96
Conv25x5x9661x61x963.72
MaxPool2 / s23x357x57x256
Conv33x3x25628x28x2561.11
Conv43x3x38426x26x3841.42
Conv53x3x38424x24x2560.80
reg_d3x3x25622x22x2560.44
cls_d3x3x25622x22x2560.44
Correlation_reg4x4x25620x20x2560.04
Correlation_cls4x4x25620x20x2560.02
total  8.97

训练数据

VID + Youtube-BB。稀疏标记的 Youtube-BB 视频包含每30帧一次注释的200,000多个视频。实验中,VIDYoutube-BB 的数据占比设为1:5。

DaSiamRPN

大多数的孪生网络跟踪器使用的特征都只能区分前景和非语义背景。而跟踪过程中,也有语义的背景带来的干扰,其通常是限制跟踪性能的重要因素。DaSiamRPN 分析了训练过程中样本对跟踪过程的影响,发现正负样本不均衡是导致跟踪性能瓶颈的主要原因。

DaSiamRPN 从两个角度解决这个问题:

  • 训练过程中,通过控制采样方式来控制正负训练样本的分布,并且引入含有语义的负样本;
  • 测试过程中提出干扰物感知模块来调整跟踪器,使其适应当前的视频。

除此之外,作者还设计了一种局部到全局的搜索区域增长方法,将算法扩展到长期跟踪。在UAV20L、UAV123、VOT2016、VOT2017数据集上,所提出的方法均可取得目前最好的结果,同时速度可达到160FPS。不过作者提到尽管增强了跟踪器的判别力并加入了在线分类器,余弦窗这个拐棍仍然丢不掉。

然而作者开源的代码砍掉了干扰物感知模块及搜索区域策略,所提供模型相比论文通道翻倍,计算量增至原来4倍,在 Kepler GK210(≈GTX 1060)上实测为35FPS。

BN-AlexNet
BN-AlexNet
cls_t
reg_t
cls_d
reg_d
kernel
kernel
1x1
softmax
127x127x3
6x6x512
271x271x3
24x24x512
4x4x 512x2k
4x4x 512x4k
22x22x512
22x22x512
*
*
19x19x2k
19x19x4k
19x19x4k
361k

网络计算量(SiamRPNBIG

Type/StrideFilter ShapeInput SizeGFLOPs
Conv1 / s211x11x3271x271x32.23
MaxPool1 / s23x3131x131x192
Conv25x5x19265x65x19217.03
MaxPool2 / s23x361x61x512
Conv33x3x51230x30x5125.17
Conv43x3x76828x28x7684.46
Conv53x3x51226x26x5122.53
reg_d3x3x51224x24x5122.13
cls_d3x3x51224x24x5122.13
Correlation_reg4x4x51222x22x5120.11
Correlation_cls4x4x51222x22x5120.06
regress_adjust1x1x2019x19x200.0003
total  35.9

训练数据

ImageNet Detection + COCO Detection

SiamFCSiamRPN 训练时,目标对来自同一视频中的不同帧。但是,这些视频检测数据集只包含少数类别(VID 为20,Youtube-BB 为30),这不足以为 Siamese 跟踪训练高质量且通用的特征。此外,SiamRPN 中的边界框回归分支在遇到新类别时可能会得到较差的预测。DaSiamRPN 通过引入大规模 ImageNet DetectionCOCO Detection 数据集,大大扩展了正对的类别。通过增强技术(平移、调整大小、灰度等),来自检测数据集的静止图像可用于生成用于训练的图像对。正对的多样性能够提高跟踪器的判别能力和回归准确性。

文中暗示“运动模式可以通过网络中的浅层轻松建模”。

性能比较

Performance
A 表示精确度,是在成功跟踪期间的平均重叠率,R 表示鲁棒性,衡量跟踪器在跟踪期间丢失目标(失败)的次数。

总结

如果说 SiamRPN 的大数据离线学习让跟踪变成了“台上一分钟,台下十年功”。那么 DaSiamRPN 则首开抛弃视频造数据的先河。个人认为2018年似乎是一个转折点。原因如下:

  • SiamRPN 的出现预示着神经网络对于相关滤波的取代态势;
  • 从速度上看相关滤波所借助的融合特征已达上限;
  • 最新的检测相关技术被引入:
    SiamRPN 使用了 RPN,MDBD 使用了 MobileNet-SSD,RT-MDNet 使用了 RoIAlign。
  • TrackingNetLong-term Tracking in the Wild 所代表的新数据集将深度学习带入更大的舞台。

参考资料

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值