目标跟踪正负样字失衡比较严重,这里主要是想在跟踪领域提供解决思路,做下总结和整理的工作。
- MDNet中用到了OHEM(online hard example mining)
- VITAL 中提出 cost sencentive loss
- SiamFc-tri 中提出Triplet loss
- DSLT 基于focal loss 改进的Shrinkage loss
VITAL: VIsual Tracking via Adversarial Learning
代码:https://github.com/ybsong00/Vital_release
论文:https://ybsong00.github.io/cvpr18_tracking/index.html
摘要: 针对tracking-by-detection 跟踪框架采样深度分类网络存在两个方面的问题。1、每帧中正样本空间上高度重合很难捕获丰富的目标变化;2、正负样本存在极度的不平衡。作者提出采用gan 网络随机生成mask 去捕获目标的变化。通过gan生成的mask 可以很好的识别鲁棒性特征。另外,作者对于分类样本不均衡问题,提出high-order cost sensitive loss去降低容易负样本的影响。
问题分析:
之前的跟踪算法强调用版别性强的特征,然后随着目标一帧帧的变化,最具判别行的特征在当前帧无法保证仍然具有判别性。最典型的就是部分遮挡和平面外旋转场景。所以作者想通过GAN去mask 识别那些鲁棒性的特征,而不是判别行强的特征。
这里只讲损失改进的部分,关于GAN的部分可以看原文,损失是在CE的基础上改进的。
当0.5和y=0时,即跟踪中的大量的负样本满足。求和后的损失主宰了整个损失。控制了梯度。
基于次作者结合了focal loss ,提出了cost sensitive loss:
可以看出在当0.5和y=0时,对容易负样本在原始交叉熵的损失基础上乘上了,而此时的,起到了抑制的作用。
ps:其实我想说的是当y=1时,(1-p)会是小于1的,会对正样本也是一种抑制,只是没有y=0时,抑制的程度大,但是只有是抑制就不太好,因为正样本本来就缺乏,这样抑制不太好;可以对容易正样本进行抑制,对于困难正样本应该给予更大的权重,即p=0.5时,权重应该要大。