CVPR2020 Parsing-based View-aware Embedding Network for Vehicle Re-Identification

Parsing-based View-aware Embedding Network for Vehicle Re-Identification论文阅读

代码:https://github.com/silverbulletmdc/PVEN

Abstract

车辆重识别是为了在跨摄像机场景的多视角任务下找到相同车辆的图片。这项任务的主要挑战是由不同视角引起的内部实例之间的较大距离(同一辆车不同视角下的差异)和由相似车辆引起的实例间的微妙差异(相同视角下不同车辆之间的微妙差异)。本文提出PVEN来获得视角感知特征对齐和增强了车辆重识别。首先,介绍一种解析网络从四个不同角度解析一辆车(图像分割),然后通过mask average pooling实现特征对齐。这种对齐对于车辆提供了细粒度表示。其次,为了增强视图感知特征,设计了一个common-visible attention来关注一般可视角度(针对预定义区域来说,这里是将所有的可视视角都作为特征区域),不仅缩短了内部实例间的差异,而且增大了实例间的差异。PVEN帮助获取不同视角下车辆之间的稳定的差异信息。在三个数据集上的实验表明了本文的方法大幅提升了性能。

Introduction

车辆重识别的目的是在gallery(查询数据集)中找到query(待查询数据集)中对应车辆,目标往往是在多种角度和跨摄像机下的(这里指gallery中的目标往往是跨摄像机的不同角度)。两个主要的挑战是 :1)不同视角下的同一辆车之间较大的差异;2)相同类型和颜色的车辆之间的微妙差异难以分辨。

[Attributes guided feature learning for vehicle re- identification]:融合了像机视角、车辆类型和颜色的深度网络,关注的车辆的全局特征(global feature)

指出了全局特征代表了整辆车的特征,但是在不同的视角下,同一车辆的特征有着巨大的变化(intra-instance),这就是第一个挑战。相反,局部特征(local feature)往往能够提供比较稳定的差异。

[A region-aware deep model for vehicle re- identification]:基于三个一辆车的均匀分割区域来获得不同的视角

[Part- regularized near-duplicate vehicle re-identification]:使用yolo检测车辆、车灯和品牌来生成差异特征 

指出前面的方法是使用预定义的区域进行学习微妙的局部特征,但是独特的线索(排气,贴纸和装饰品)可能出现在车辆的任何一个部分(或许不同车辆在指定区域特征非常相似,但是差异可能出现在指定区域以外的地方),这就导致了第二个挑战(inter-instance)。

数据增强,如互补视图生成被应用在缩短intra-instances的差异。

[Viewpoint-aware attentive multi- view inference for vehicle re-identification]:基于生成不可见的 视角来解决多视角问题,生成视图是从可见视图派生的,这种方法不能生成额外的有区别的特征

 在车辆识别中,不用视角往往代表着不同的特征。我们可以利用这些互补的特征获得更多关于一辆车差异的描述,但是一辆车在不同视角下具有很大的外观差异,所以如何有效融合这些不用的特征仍然是一个挑战。

PVEN包含了三个部分:vehicle part parser / view-aware feature alignment / common-visible feature enhancement

vehicle part parser:通过训练一个U型解析网络来生成四个视角的mask,由于车辆是刚体,解析网络不需要处理变形问题,因而获得了令人印象深刻的精度。

view-aware feature alignment:基于全局特征,局部特征通过mask average pooling来对齐。

common-visible feature enhancement: 该机制倾向于扩大车辆间的可见视角的影响,抑制不显著的视角。修改了传统的三元损失来避免局部特征的不匹配。优化了局部三元损失和全局损失来学习感知视图下的嵌入特征。

Related Works

先前的在车辆重识别上的研究可以被概括为三大组:

1)基于特征融合的车辆信息(时空信息、车辆属性等):这种方法学习global feature,从而对车辆在不同视角下的变化非常敏感。

2)基于车辆特征学习的局部区域(车辆关键点:车窗、车灯等):这总方法依赖于预定义区域或者是关键点,忽视了有差异的线索可能出现在车辆的任何一个地方,这就导致了难以区分相似车辆之间的微妙差异。

3)基于对抗网络的总体特征对齐:这种利用GAN生成特征的方法局限于生成特征和实际特征之间的差异较大。

Methodology

PVEN关注视觉感知特征学习,对齐和增强一般可见特征帮助学习到更加鲁棒有差异性的特征。

Vehicle Part Parser

作为一个车辆重识别的关键任务,多摄像机下的视角变化是不可避免地。不同视角下的不变特征学习是提高vehicle ReID性能的一个重要方向。车辆可以看成是一个立方体,并且分割成不同部分,并且作为刚体,不会有很大的形变。这就意味着好的解析网络可以提取到准确地特征,然后利用这些解析后地masks对齐车辆的不同部分。本文将车辆分为六个部分,忽视底部和左右的一个边,保留四个部分:front, back, side and top

本文中,解析方案是为了车辆视觉感知表示设计的。解析方案有两个优势:在固定的视角下能够覆盖到整辆车,以至于两辆车之间的差异能够被获取;在多视角下,图片中的车辆的三个部分是可见的,这意味着在query和gallery图片中至少会有两个相同的部分。

标注VeRi数据集的子集来训练vehicle part parsing network。从七个不同的关键点采样图片,如果关键点多的数量少于四个就均匀采样该辆车的四张图片。使用标注的数据集去训练一个segmentation model,backbone是SeResNeXt50。

View-aware Feature Alignment Most

大多是车辆重识别模型使用深度全局特征来代表一个车辆目标,这关注学习高位信息,本文介绍视角感知下的局部特征用全空间覆盖来获取细粒度的表示。视角感知特征对齐用来避免不同视角下的不匹配。

使用ImageNet数据集预训练的ResNet50作为特征提取器。重设最后池化层的步长为1得到一个16 × 16 × 2048的特征图F。特征提取网络两个分支:使用global average pooling获得globa feature,另一个分支为了视角感知学习的local分支。对于local分支,首先池化四个不同的masks为16 × 16,再用mask average pooling (MAP)将特征图F计算四个视角感知特征。

全局特征将不同视图的特征混合为一个特征。在比较两个车辆时,它会导致视图的不匹配。与之不同的是,本地视图感知特性是与上述四个视图对齐的。它将不同视图的信息解耦为相应的局部有限元信息分析,并为车辆提供视图感知嵌入。

Common-visible Feature Enhancement After

这一部分主要是为了增强不同视角的特征,帮助再不同视角下获取到同一车辆目标的稳定差异。然后就是一些计算的公式,masks的大小是16 × 16,由Vehicle Parsing Network生成,计算的可视得分表示每一个视角下相应区域的大小,根据可视化得分计算得出一般可视得分,表示一般可是区域的一致性,最后用欧式距离和前面计算的一般可视得分来计算两个车辆目标的局部特征的距离。

Experiments&Conclusion(见文章)

 

 

  • 1
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值