2020略读Learning Feature Embeddings for Discriminant Model based Tracking

Learning Feature Embeddings
for Discriminant Model based Tracking
基于判别模型跟踪的学习特征嵌入
详情见知乎链接
https://www.bilibili.com/read/cv7848324/
在观察到大多数在线判别训练跟踪器中使用的特征不是最优的之后,本文提出了一种新颖有效的结构来学习用于在线判别跟踪的最优特征嵌入。我们的方法,称为离散余弦变换,将可微的判别模型的求解器和一个封闭形式的解集成到卷积神经网络中。然后,可以以端到端的方式训练所得到的网络,为基于判别模型的跟踪器获得最佳特征嵌入。
本文提出了一种新颖有效的学习最优特征嵌入的在线鉴别跟踪体系结构。我们提出的网络接收一对图像,训练图像和测试图像,作为离线训练的输入。首先,设计一个有效的子网络,从每幅输入图像中提取目标物体周围真实且密集样本的特征。然后,训练一个可微分且具有封闭形式解的判别模型,以将训练图像中的样本拟合到它们的标签。最后,训练好的判别模型预测测试图像中样本的标签,并计算预测损失。这样,判别模型的训练就不像KCF那样需要循环样本和合成样本,自然避免了负边界效应。另一方面,因为它是可微的,并且具有封闭形式的解,所以它的求解器可以在训练期间作为具有向前和向后过程的层集成到CNNs中。因此,产生的网络可以以端到端的方式训练,为基于判别模型的跟踪器获得最佳特征嵌入
在这里插入图片描述
用于学习特征嵌入的建议网络的完整架构。对于每个输入图像,通过均匀采样产生具有目标尺寸的N个感兴趣区域。从输入图像中提取的块3和块4主干特征映射首先通过两个卷积层以获得两个学习的特征映射。然后使用PrPool层提取每个RoI的固定大小的特征图,并使用完全连接的层进一步映射到特征向量。x和Z分别是由所有训练样本和测试样本的学习特征向量组成的数据矩阵。训练一个鉴别模型,使样本在X方向与其标签相匹配。最后,w预测Z中样本的标签,计算预测损失。最好用彩色观看。
离散余弦变换在大幅度跟踪精度上优于循环频率网和离散余弦变换,在大幅度跟踪精度和速度上也优于CFCF。
元学习 可微凸优化
本文,所提出的离散余弦变换是第一个将可微分且具有封闭形式解的判别模型的求解器集成到神经网络的训练中的跟踪器,以学习用于在线判别跟踪的最佳特征嵌入,而无需循环和近似样本。在多个具有挑战性的基准上进行的实验表明,我们的方法在超过实时速度的情况下实现了最先进的精度,并且为视觉跟踪设置了简单而强大的基线。因此,我们相信它将促进高精度和实时跟踪的发展。

特征嵌入
在线判别训练跟踪器的主要任务是训练一个判别模型w,它不仅能很好地在线拟合训练样本,而且能很好地推广到测试样本。众所周知,不仅不同的建模方法,如最近邻和岭回归,直接影响w的泛化能力,而且特征也是至关重要的。因此,我们的方法,离散余弦变换,是通过设计一个架构来学习基于判别模型的跟踪器的最佳特征嵌入,而不是像大多数现代在线判别训练跟踪器那样使用更强大的判别模型来提高跟踪精度。
上述图由特征提取网络,模型求解以及损失函数三部分构成
1、五个步骤特征提取网络
具有目标尺寸的n个感兴趣区域是通过对整个图像进行均匀采样而生成的。此外,包含它们的高斯标记的向量y∈rn×1是按照KCF [18]中所做的那样构造的,标准偏差为0.25。
2、ResNet [16]从输入图像中提取块-3和块-4主干特征图,然后通过两个卷积层,以获得两个学习的特征图。他们的步幅分别是8 × 8和16 × 16。这里,所有的卷积核都是3 × 3,所有的卷积层后面是batchorm[20]和ReLU
3、使用PrPool层[21]从上述两个学习的特征图中分别提取每个RoI的固定大小的特征图,并使用完全连接的层进一步映射到特征向量。具体来说,两个PrPool层的输出大小分别为8 × 8和4 × 4,并且两个跟随的完全连接的层都输出512维特征向量。
4、每个RoI的两个512维特征向量被连接以产生它的学习特征向量。它的尺寸,表示为D,是1024
5、他从训练数据矩阵X ∈ RN×D中学习所有训练区域的特征向量,以同样的方式获得测试数据矩阵Z ∈ RN×D
值得注意的是,不同于CFCF和CFNet的训练数据矩阵是循环的,大多数训练样本是虚拟的,不同于DiMP的训练和测试样本总是假设为正方形,在我们的离散余弦变换中,训练数据矩阵是非循环的,所有的训练和测试样本都是真实的,与目标对象的实际大小相同。

判别式模型求解

训练一个判别模型,它是可微的,并有一个封闭形式的解决方案,通过将其求解器集成到所提出的网络中,使样本在X方向上与其标签相匹配。因为判别模型是可微的,并且具有封闭形式的解,所以其求解器可以在训练期间作为具有前向和后向过程的层集成到CNNs中。我们在这项工作中应用流行的岭回归模型来展示所提出的体系结构的能力。岭回归模型在视觉目标跟踪领域已被证实是简单、高效和有效的[24,6,40,41,48]。它不仅可以利用所有的前景和背景样本来训练一个好的回归器,还可以有效地利用高维特征,因为过度拟合的风险可以通过l2范数正则化来控制。最重要的是,它是可微的,并且有一个封闭形式的解。

采用岭回归的优化问题

在这里插入图片描述

在这里插入图片描述

收敛损失下的快速收敛

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值