Mancs: A Multi-task Attentional Network with Curriculum Sampling for Person Re-identification 论文笔记

Mancs论文提出了一个解决行人重识别问题的模型,通过多任务学习结合排名损失、焦点损失和注意力损失。文章重点介绍了全注意力模块(FAB)以增强特征表示,同时采用课程抽样策略优化排名损失,以逐步增加训练难度。此外,模型还应用了深度监督来改进注意力特征,提高了网络的识别性能。
摘要由CSDN通过智能技术生成

一、提出问题

  • 损失函数的选择
  • 行人错位问题
  • 发现具有差异性的地方特征
  • 如何在优化排名损失函数时对训练数据进行采样

二、论文贡献

  • 提出Mancs模型,模型中的基本骨干网络受到排名损失(三重损失triplet loss)和分类损失(焦点损失focal loss)的监督。本文提出了一种新的课程抽样策略来训练排名损失,该训练策略有助于由易到难的训练网络;
  • 为了处理错位问题并定位差异性局部特征,本文提出了一种新的全注意力模块(FAB),它可以创建通道方面和空间方面的注意信息,以挖掘行人重识别的有用特征;
  • 为了更好地了解网络中的FAB,本文通过为每个FAB添加分类损失函数来深度监督模型,这种分类损失函数被称为注意力损失。最后,将triplet loss,focal loss和注意力损失结合起来,以多任务方式训练网络。

三、模型结构

图3-1 模型结构

3.1 训练结构

用于训练的网络架构如图3-1所示,主要包含三个部分:骨干网络,注意力模块和损失函数。

骨干网络作为多尺度特征提取器,本文使用的是ResNet-50,采用conv-2,conv-3和conv-4特征映射用于生成注意力mask,然后将这些mask添加回主分支,最后一个conv-5特征映射用于生成最终的人物身份特征。

3.2 全注意力模块

图3-2 SE模块和FAB模块

FAB模块受压缩奖惩网络(SENet)的启发,该方法说明了特征映射的不同通道在指定对象上映射出的特征不同。 SENet中的SE模块(图3-2(a))根据通道的偏好并给特征图的每个通道赋一个加权系数,但是SE模块仅在通道方面重新校准了特征响应,而忽略了在使用全局池化情况下的空间响应,这导致丢失空间结构信息。为了解决这个问题,本文提出的 FAB模块舍弃了池化层并使用1×1卷积层而非全连接层来重新获取空间信息。由此可以获得具有相同大小的输入特征图的注意力mask,FAB模块如图3-2(b)所示。

给定卷积特征映射Fi,其注意力映射计算如下:

其中,两个Conv运算是1×1卷积,内部Conv用于压缩,外部Conv用于激励。在获得注意力特征图M之后,Fi的输出特征图为:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值