part-aligned系列论文:1711.Beyond Part Models- Person Retrieval with Refined Part Pooling 论文阅读笔记

Beyond Part Models- Person Retrieval with Refined Part Pooling

这篇论文和1711.AlignedReID- Surpassing Human-Level Performance in Person Re-Identification这篇论文同样的出色,都将Market-1501数据集的TopRank-1性能刷到了95以上,但该论文没用re-ranking boosting ,两篇论文里面的方法都非常新颖,值得详细研究。
作者在Market-1501,DukeMTMC-reID ,CUHK03获得惊艳的性能
该论文信息:
这里写图片描述
这里写图片描述


其他网友的分析:
https://zhuanlan.zhihu.com/p/31947809


自己的总结:
核心:考虑within-part consistency,如图,为均匀分割后的不一致性可视化描述:
这里写图片描述
The existence of these outliers suggests that they are inherently more consistent with column vectors in another part.我们需要对这些outliers进行重定位,即修改这些不一致性,使每个part的column vectors保持一致的相似性。


论文简介:
提取part级别的特征对于细粒度图像识别具有重要的意义,类似part aligned的想法,作者设计了新的更强的baseline-PCB(Part-based Convolutional
Baseline),其能得到由几个part级别的特征得到的综合描述子用于reid任务的行人匹配,不过在此baseline中一个行人图像的各parts间不应该只是这种严格的均匀的分割区域方式,考虑各part之间信息过渡的连续性,作者设计了一个精巧的训练策略,采用RPP(refined part pooling),某part边缘部分的outliers重新划分到临近的parts上,这样就产生了一个part内连续性(连贯性),这使得应用part的model性能得到增强,不过,作者更加强调了RPP的训练策略,这是非常关键的,融入了一种对抗训练的思想。

reid中不同分割策略产生的part,后两种是一种软分割(如下图)
典型地:
采用现成姿态估计得到的parts特征,因为和目标数据集存在bias,并不能在行人图像上得到理想的行人parts语义信息
通过重定位外围像素点到它更适合的part中来精调这个均匀分割parts,这可以使得各part内具有连贯性,即相当于让模型更加注意两两parts的顺序,有一种更精细对齐的含义(同时过滤了一些背景杂波)
这里写图片描述

最近利用了注意力机制的论文:
基于Show, attend and tell: Neural image caption generation with visual attention. In ICML, 2015这篇论文的两篇论文:
Hydraplus-net: Attentive deep features for pedestrian analysis. In ICCV, 2017
Deeply-learned part-aligned representations for person re-identification.

PAR
H. Yao, S. Zhang, Y. Zhang, J. Li, and Q. Tian. Deep representation learning with part loss for person re-identification. arXiv preprint arXiv:1707.00798, 2017.
PAR和本文都是利用做软分割(即提取的有效特征应用了注意力机制),而不用 no part labeling,并不是固定的含有更多背景杂波的矩形分块!!
但PAR和本文PCB with RPP在训练策略,设计动机和机制上存在明显不同:
具体如下:注意PAR的各parts分别训练采用各自的part loss外加全局约束来形成具有模糊对齐意义上的整体描述子。而PCB的RPP是在预训练的均匀分割上进行精调,训练策略上前面是同时训练,联合优化,而RPP需要预训练均匀part loss的模型后,再精调RPP部分引入的参数,且是一种半监督的方式。细节上的区别如下:
这里写图片描述

Structure of PCB:
这里写图片描述
基模型可以是ResNet50, Google Inception等,本文主要采用了ResNet50.
作者作的一些轻微的修改:
如图,ResNet50的全均值池化被抛弃,而是分P个水平条纹,在各条纹上应用条纹全局均值池化,得到的p个2048维度的向量后,再由1*1卷积核的降维操作后,变为256-dim,最后,对每个条纹对应的特征向量,分别采用N类别的softmax多分类 loss训练得到p个N-IDs的分类器。
测试阶段,p个特征向量会串接为一个描述子用于匹配ID。
注意:可用作测试的特征向量可以来自于2048维的,也可以来自256维的特征向量串接,不过前者在更多计算消耗下可以获得更高一些的性能。

PCB benefits from fine-grained spatial integration,其重要的参数设置,通过实验得到的,即:
SSD [21] and R-FCN [5], show that decreasing the down-sampling rate of the backbone network efficiently enriches the granularity of feature.Through our experiment, the optimized parameter settings for PCB are:
这里写图片描述
Potential Alternative Structures即PCB可以选择的一些结构变体:
这里写图片描述

PCB with Refined part pooling conducts a “soft” and adaptive partition to refine the original “hard” and uniform partition,and the outliers originated from the uniform partition will be relocated.如下图:
这里写图片描述
1. a standard PCB model is trained to convergence with T equally partitioned.
2.we remove the original average pooling layer after T and append a p-category part classifier on T.The part classifier predicts the probability of each column vector(每个特征图的一小块组成的列) in T belonging to p parts.主要用于确定采样权重.New parts are sampled(即对每个parts的分别池化) from T according to the prediction of the part classifier

训练策略:对抗式训练,取得一个精调的平衡:
这里写图片描述


实验
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值