一、提出问题
- 损失函数的选择
- 行人错位问题
- 发现具有差异性的地方特征
- 如何在优化排名损失函数时对训练数据进行采样
二、论文贡献
- 提出Mancs模型,模型中的基本骨干网络受到排名损失(三重损失triplet loss)和分类损失(焦点损失focal loss)的监督。本文提出了一种新的课程抽样策略来训练排名损失,该训练策略有助于由易到难的训练网络;
- 为了处理错位问题并定位差异性局部特征,本文提出了一种新的全注意力模块(FAB),它可以创建通道方面和空间方面的注意信息,以挖掘行人重识别的有用特征;
- 为了更好地了解网络中的FAB,本文通过为每个FAB添加分类损失函数来深度监督模型,这种分类损失函数被称为注意力损失。最后,将triplet loss,focal loss和注意力损失结合起来,以多任务方式训练网络。
三、模型结构
图3-1 模型结构
3.1 训练结构
用于训练的网络架构如图3-1所示,主要包含三个部分:骨干网络,注意力模块和损失函数。
骨干网络作为多尺度特征提取器,本文使用的是ResNet-50,采用conv-2,conv-3和conv-4特征映射用于生成注意力mask,然后将这些mask添加回主分支,最后一个conv-5特征映射用于生成最终的人物身份特征。
3.2 全注意力模块
图3-2 SE模块和FAB模块
FAB模块受压缩奖惩网络(SENet)的启发,该方法说明了特征映射的不同通道在指定对象上映射出的特征不同。 SENet中的SE模块(图3-2(a))根据通道的偏好并给特征图的每个通道赋一个加权系数,但是SE模块仅在通道方面重新校准了特征响应,而忽略了在使用全局池化情况下的空间响应,这导致丢失空间结构信息。为了解决这个问题,本文提出的 FAB模块舍弃了池化层并使用1×1卷积层而非全连接层来重新获取空间信息。由此可以获得具有相同大小的输入特征图的注意力mask,FAB模块如图3-2(b)所示。
给定卷积特征映射Fi,其注意力映射计算如下:
其中,两个Conv运算是1×1卷积,内部Conv用于压缩,外部Conv用于激励。在获得注意力特征图M之后,Fi的输出特征图为: