Embedding Deep Metric for Person Re-identification: A Study Against Large Variations

最新推荐文章于 2022-05-02 11:14:25 发布

yang_502

最新推荐文章于 2022-05-02 11:14:25 发布

阅读量1.6k

点赞数

分类专栏：深度学习文章标签： metric learning cnn

本文链接：https://blog.csdn.net/yang_502/article/details/60325748

版权

深度学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

The source codes is available at http://www.cbsr.ia.ac.cn/users/hailinshi.

李子清小组的文章，主要用于做行人的再识别。这篇文章提出的方法主要是针对行人识别中的类内（同个人）差异大的问题。行人再识别相对于人脸识别，姿势、光照、遮挡等问题给识别带来更大的问题。文章的主要工作包括：1）选择适当的正例样本；2）带权值约束的度量学习。

在人脸识别或是行人识别问题上，传统的做法包括两方面的工作：1）提取具有判别力的特征；2）计算样本特征距离。提取特征有很多经过人工设计的特征描述符：SIFT，LBP等。常用的距离函数有欧氏距离、马氏距离、余弦距离、双线性距离等。但是随着深度学习的火热发展，使用CNN能够提取图像的更高层的特征，这篇文章也是基于CNN提取行人数据的特征。为了充分利用行人不同身体部位的形态信息，将图像分成3个有重叠区域的patch,输入到3个不同参数的卷积网络网络中，在之后的全连接层进行特征整合。最后的线性全连接层可以认为是一个度量层，计算特征经过马氏度量矩阵线性映射后的输出值。

文章使用的CNN框架如下：

下面来说说文章的两方面工作：

1）选择适当的正例样本（ Moderate Positive Mining Method ）

深度学习有人说是靠大数据量和深层网络结构得到的高精确度，也对也不对。因为并不是随便一堆数据都能训练出一个高效学习力的网络。输入的数据一方面在数量上有要求，有效的数据采样同样重要，选择合适的正负例样本让网络对数据进行学习。在人脸识别上，经常提到一个最难负例样本的问题（hard negative mining strategy ），主要是关注最容易识别错的负例样本，能够有效提高训练效率和模型性能。对于行人再识别存在类内差异大的问题，文章提出选择合适的正例样本对于网络的训练也很关键。

文章提到training with the positive samples of large distance (the yellow line with cross) may distort the manifold and harm the manifold learning.
The basic idea is that we reduce the intra-class variance while preserving the intrinsic graphical structure of pedestrian data via mining the moderate positive pairs in the local range. 我的理解是，选择距离大的正例样本训练网络会破坏流形分布以及流行学习。因此，基本的想法是选择附近的正样本，来减少类内变化的同时保留行人数据内在图像结构。

上面（b）图给出行人数据的流形分布情况，并指出了hard positive和moderate positive。我仍然疑惑，选择这样的正例样本如何使得网络对于类内差异大的样本对鲁棒。（c）图是当行人数据服从高斯分布时使用马氏距离得到的分布情况。

2）带权重约束的度量学习

常用的欧氏距离函数，和维度无关并且不考虑维度之间的相关性，但也因此泛化能力更好。马氏距离考虑数据维度之间的相关性。本文使用马氏距离计算样本特征之间的距离，而经过CNN提取的特征我们并不能保证特征维度之间都是不相关的，因此，出于这个方面的考虑，提出带权重约束的度量学习。计算样本的马氏距离，其实就是在欧氏空间寻找一个线性映射，在特征子空间对样本计算欧氏距离。其实这个带权重约束，就是防止过拟合。在ITML这篇文章，使用KL散度防止过拟合，在CSML中也有类似的做法。

马氏距离：