Multi-Adapter RGBT Tracking

Multi-Adapter RGBT Tracking

henglong Li,Andong Lu,Aihua Zheng, Zhengzheng Tu, Jin Tang

2019 IEEE/CVF International Conference on Computer Vision Workshop (ICCVW)

一、贡献:

  1. 提供了一个用于RGBT跟踪的端到端的训练深度网络(MANet),MANet包含三种适配器,可以提供更强大的RGBT深度表示,更好地处理RGBT跟踪中各种各样的挑战。同时,本文提出的MANet可以是通用的,可以处理两种及两种以上的多模态。
  2. 呈现了一个有效的通用适配器和模态适配器的平行结构,由于RGBT跟踪的实时需要,这种结构可以减少计算的复杂性。这种平行结构是可扩展的,可以延伸到其他应用的更多的分支,例如:类别感知和挑战感知适配器。
  3. 在两个RGBT跟踪基准数据集上的大量实验表明提出的跟踪器具有卓越的性能,并缠上一个新的用于RGBT跟踪的SOTA.

 

二:网络结构

  1. 通用适配器(GA):MANet通用(generality adapter)适配器与MDNet的网络结构相同,都是用的VGG-M的前三层卷积,用于提取共享特征。选择VGG-M的原因是其在有效性和效率之间有很好的平衡,前三层卷积核的大小分别为7x7x96,5x5x256,3x3x512,每层卷积分别包括一个卷积层,ReLU,LRN,MaxPool。

        但是MDNet+RGBT是分别提取两个模态的特征,而MANet的GA,两个模态是共享权重的。

     2.模态适配器:(MA)

(1)为什么要设置模态适配器:

因RGB和热红外具有不同的特性,因此只使用通用适配器是不够的,为了对每个模态的信息进行建模并且充分利用RGB和热红外的互补信息,因此本文设计一个子网络来学习特定模态的特征表示。

现有的结构一般是用Two-Stream网络来提取RGB和热红外的特征,但Two-Stream忽略了模态共享特征,并且有很多参数。为了提取模态特征以及减少计算量,因此,在通用适配器的基础上提出了模态适配器。

(2)方法

确切的说,设计了一个平行网络结构(具体看结构图),对于每个通用适配器,都设计了一个3x3或1x1的卷积核。因为不同模态的应该共享大量的参数,而只有一小部分参数不同,所以本文虽然只加了很小的卷积核,却对特征的提取非常有帮助。本文开发了一种自适应模式来根据通用适配器卷积核大小决定模态适配器卷积核大小。MA卷积核大小分别设置为3x3(7x7 in GA),1x1(5x5),1x1(3x3),每一层的卷积核之后,也包含有ReLU、LRN、MaxPool。

     3.实例适配器(IA):

因为不同对象涉及到不同的类标签、运动模式和不同的外观。跟踪算法也面临着诸如遮挡、形变以及运动模糊等具体实例挑战。对于一个实例来说,它的外随时间的变化,有可能变化很多的,因此,仅用第一帧来训练跟踪模型是无效的。为了处理这个问题, 受MDNet的启发 ,本文整合了一个实例适配器,对某一特定物体的外观特性和时间变化进行建模。

具体地说,IA由三层带有dropout层的全连接组成,为FC4,FC5,FC6,维度分别为512,512,2(因为跟踪最后实际上就是一个二分类)。FC4,FC5后面带有ReLU激活函数,FC6层与softmax cross-entropy loss(交叉熵损失)一起作为一个二分类层。

    4.网络结构:

(1)⨁操作(以热红外图像的模态特征为例子):输出为

其中T代表输入, 代表通用适配器的权重矩阵, 代表模态T的模态适配器的权重矩阵。*代表卷积操作

 

三:进步的学习算法:

考虑到将每个模态的网络学习作为一个单独的任务,因此,本文的MANet的联合学习本质上可以看作一个多任务学习问题。因为,为了有效训练MANet,本文开发了一个有效的渐进学习算法,它能够有效地解决类似于多任务学习这样的问题。

  1. GA训练:(权重共享)

用在VGG-M上预训练的模型来初始化GA的参数,并且使用RGBT数据集进行微调。(用GTOT进行测试,那么就用RGBT234进行微调,反之亦然。)使用 stochastic gradient descent (SGD)算法来训练GA。卷积层的学习率设为0.0001,全连接层的学习率设为0.001,epoch数量设为100,在这个阶段,只保留GA的参数,MA和IA的参数丢弃。

   2.MA训练:

首先加载GA的参数,并固定。使用SGD算法来训练MA,卷积层参数设为0.0001,全连接层参数设为0.0005,epoch数量设为100,在这个阶段,保存MA和FC4-5的参数,丢弃FC6的参数。

   3.IA训练:

(1)方法:

对于IA,使用离线和在线的方式来学习其参数。

  • 离线方式用来捕获目标实例的特征,并且在训练期间丢弃最后一层的参数。(MA的训练其实就是IA离线方式的训练)
  • ·在线方式用来捕获目标外观随时间的变化。对于一个新的实例,用第一帧来学习FC的最后一层,同时,在后续帧中,用一个一个间隔中的若干帧来更新最后三层。

IA在整个训练阶段,除了预训练(训练GA),一直都是训练的。因此在训练IA时,整个网络都是端到端的训练。

(2)具体实现:

收集了500个正样本(IOU>0.7)和5000个负样本(IOU<0.5)作为第一帧的训练样本,学习FC4-5-6,其中FC4-5的学习率设为0.0001,FC6的学习率设为0.001,训练迭代次数设为30次,在接下来的帧中,画出正样本(IOU>0.7),负样本(IOU<0.3)作为用于长时更新和短时更新的训练样本,FC4-5的学习率设为0.0002,FC6的学习率设为0.002.

 

四:在线跟踪:

在跟踪阶段,固定GA,MA,先用第一帧训练出IA(后面用长时和短时更新再更新)。为了获取当前帧的结果,以前一帧的跟踪结果的中心进行高斯裁剪,得到256个样本,使用这些样本作为网络的输入,获得他们的正分数和负分数,取正分数最高的候选框作为当前帧的跟踪结果。

同时,继续采用MDNet的边界框回归,为了提高跟踪效率仍然只在第一帧中进行训练。

 

 

 

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值