论文阅读笔记 End-to-end Flow Correlation Tracking with Spatial-temporal Attention [2018 CVPR] (FlowTrack)

先给出原文链接:https://arxiv.org/abs/1711.01124v1
代码暂未放出。

该论文核心思想:使用光流信息帮助跟踪。用光流信息指导历史特征融合,得到更好的目标模型,类似于根据光流做了特征对齐。

先上总框架:
这里写图片描述
(1)跟踪使用的特征由Feature CNN提取;
(2)光流信息由FlowNet提取;
(3)Warp操作指的是在光流的指导下将最近几帧(文章中使用5帧)的目标特征对齐到t-1帧;
(4)Spatial-temporal attention给各通道特征赋予权值;
(5)在训练阶段,使用CF layer执行相关滤波操作,得到响应图,目的是方便端到端训练网络,CF layer层最早在CF Net中提出,该论文也给出了其正反向传播的推导,有兴趣可参看原文。测试阶段CF layer被换成了标准相关滤波模块。

训练过程中,各个有参数层或结构统一端到端训练。

下面分别来看看各个部分的结构和细节。

Feature CNN:由三个卷积层构成(3x3x128, 3x3x128, 3x3x96)。

FlowNet:2015年被提出,是用来提取光流场的深度网络,9层卷积,如下图。
这里写图片描述

Warp操作:

这里写图片描述
其中,φ t表示Feature CNN提取的特征,下标t和i表示第t帧和第i帧,W表示Warp操作,φ t→i表示将第t帧特征Warp到第i帧。
Warp操作按特征通道进行:
这里写图片描述
其中m表示通道,p表示原始图像上点的坐标,δp表示点的光流,q表示特征图上点的坐标,K是双线性插值核,论文中给出了反向传播时,这部分的求导结果,这里不具体列出,有兴趣可参考原文。由于原论文没有给出K的具体表达式,这个公式我也不敢断定其含义,不过就作者给我的这部分代码段来看,可以稍微清楚一点它的具体操作。
这里写图片描述
img应该是历史帧某个特征通道的feature map,flow应该是这个feature map所对应帧到t-1帧的目标区域光流场。从这段代码,我认为,作者做的操作就是:
(1)算出第i帧目标到第t-1帧的光流场;
(2)然后对光流场取相反数,就认为是第t-1帧到第i帧的目标区域的光流场;
(3)然后从t-1帧图像的整像素点,根据光流逆推回去,得到第t-1帧中的整像素点对应到第i帧应该在什么位置(不一定是整数点);
(4)然后使用remap函数插值得到第i帧Warp到第t-1帧的特征。
这里写图片描述
这个操作存在的疑问是:认为第i帧到第t-1帧的光流直接取反即为t-1帧整像素点到第i帧的光流并不准确,直接取反,只能知道t-1帧对应于第i帧整像素点的那些像素点的光流(即a图中的红点),这个光流应该与t-1帧整像素点光流有差异。

Spatial attention:

这里写图片描述
上图绿色标识部分即为Spatial attention结构,Bottleneck参考Inception网络,作用是将原特征映射到一个新的特征空间(找到一个合适的embedding),然后根据公式:
这里写图片描述
计算Spatial attention,并融合特征。其中上标e表示通过Bottleneck结构找到的embedding,p表示Feature map上的点坐标。总的来说,这个部分的物理意义是,对与t-1帧特征不相似的特征赋予低权重,反之,与其相似的赋予高权重。感觉论文中没有讲清楚这部分的细节,以下是本人的推测,Spatial attention的操作图解如下:
这里写图片描述
先根据位置p取出各个帧Feature map在p位置的特征(是向量),然后分别求被取出的向量与t-1帧取出的向量之间的余弦相似度,最后做softmax,得到在p位置上,各帧特征的权重。对每个位置p做此操作,即可得到Spatial attention。

Temporal attention:

这里写图片描述
从Spatial attention输出来的权重map,输入Temporal attention结构,经过一个类似SE-Net的结构,得到通道重要性权值,可以看作是对Spatial attention的二次调整。

在线更新:
最后来看一看该论文的在线更新方法。
在跟踪阶段(testing),将CF layer替换成标准相关滤波跟踪模块,在线更新即是更新相关滤波模板。

这里写图片描述
这里写图片描述
其中,R为响应图,f为滤波模板。可以看出,阈值为历史值得平均(不知道是所有历史值的平均还是最近几帧的平均)。

最后给出部分实验结果:
1.Ablation study:
这里写图片描述

2.与其他算法对比:
这里写图片描述

完整实验结果参看论文原文。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值