idea
引入深度神经网络(用的backbone是resnet50)
解释为何之前深度网络在目标跟踪不吃香,并且提出相应的改进训练方法(训练的search不再停留于图像的中心,而是均匀分布偏移到各个位置,敦促网络对物体的响应图减少对中心的偏好)
1、深度网络不可避免地引入了padding,而因此破坏了平移等变性,padding0就是图像外围不断填黑边,特征图在不断卷积最终会导致边缘的响应大多数为0,那么这时候,比如说物体稍微平移到图像的外围部分(非中心),就会导致自己不可避免地被padding0分掉一点特征信息,也就是平移过后物体的特征不再像在中心时的特征这么完整了,因此说被破坏了平移等变性
引入fpn那种多层信息融合机制,在深度网络中分别从前中后的位置取出特征图进行加权求和,把物体的表观特征和语义信息融合
其他思想跟siamrpn差不多,用anchor,用regression和classification
解释一下为什么作者对后面部分的特征图进行裁剪,因为网络变深,意味着stride肯定变大,同样大的特征图,stride越大,映射回原图的锚点间隔越开,所以不需要这么大的特征图就足够覆盖原图了