Contrastive Transformation for Self-supervised Correspondence Learning用于对应性自监督学习的对比变换

最新推荐文章于 2022-08-25 17:36:18 发布

VIP文章听我的错不了

最新推荐文章于 2022-08-25 17:36:18 发布

阅读量940

点赞数

分类专栏：目标跟踪文献翻译个人记录

本文链接：https://blog.csdn.net/weixin_45032769/article/details/112316565

版权

Abstract

在本文中，我们着重于在使用未标记的视频对视觉对应进行自我监督学习。我们的方法同时考虑了视频内和视频间表示关联，以进行可靠的对应估计。
视频内学习经由帧对相似性在单个视频内的帧之间转换图像内容。
为了获得实例级分离的判别表示，我们超越了视频内分析，并构建了视频间亲和力，以促进跨不同视频的对比转换。通过强制视频内和视频间级别之间的转换一致性，可以很好地保留细粒度的对应关系，并有效地增强实例级别的特征区分。我们的简单框架在一系列视觉任务（包括视频对象跟踪（VOT），视频对象分段（VOS），姿势关键点跟踪等）上优于最近的自我监督通信方法。值得一提的是，我们的方法也超越了完全监督的相似性表示形式（例如ResNet），并且与针对特定任务（例如VOT和VOS）设计的最新的完全监督算法相比具有竞争优势。

1简介

学习用于视觉对应的表示形式是计算机视觉中的一个长期存在的问题，它与许多视觉任务密切相关，包括视频对象跟踪，关键点跟踪和光流估计等。由于诸如以下因素，该任务具有挑战性视点变化，干扰因素和背景混乱。
对应估计通常需要人类对模型训练进行注释。收集密集的注释，尤其是对于大规模数据集，需要付出昂贵的人工努力。为了充分利用野外的大量原始视频，最近的进展集中在通过探索未标记视频内在的内在联系来进行自我监督的对应学习。在（Wang，Jabri和Efros 2019）中，时间周期一致性用于自我监督特征表示学习。具体而言，在两个连续帧之间正确的色块级或像素级关联应在向前和向后跟踪轨迹中双向匹配。双向匹配通过帧级亲和度矩阵实现，该矩阵级亲和度矩阵表示两个帧之间的像素逐对相似性。在（Vondrick et al.2018; Li et al.2019）中，这种亲和力还用于实现两个帧之间的内容转换以进行自我监督。视频中的直接转换是颜色/ RGB格式。更具体地，可以从参考帧中的像素“复制”（或变换）目标帧中的像素颜色。通过最小化目标帧的变换后颜色与真实颜色之间的差异，主干网被迫学习鲁棒的特征嵌入，以自监督的方式识别跨帧的对应关系。+
尽管性能令人印象深刻，但现有的无监督通信算法将所有重点都放在视频内分析上。由于一个视频中的场景通常是稳定且不变的，因此在同一视频中建立对应关系的挑战性较小，并且不可避免地阻碍了学习的功能嵌入的识别潜力。在这项工作中，我们通过进一步考虑不同实例对象之间的视频级嵌入分离，超越了视频内对应学习。我们的方法在很大程度上受到对比学习最近成功的启发（He et al.2020; Chen et al.2020），其目的是通过对比损失（Hadsell，Chopra和 Lecun 2006）。然而，对比学习和对应学习之间存在两个明显的差距。首先，经典的对比学习依赖于增强的静止图像，但是很少探索如何使其适应视频级对应场景。第二，它们的优化目标有些矛盾。对比学习的目标是正集中和负分离，而忽略了正嵌入之间的像素间相关性。相反，对应学习旨在识别细粒度的匹配。+
在这项工作中，我们旨在通过吸收核心的对比思想进行对应估计来缩小上述领域的差距。为了将对比学习从图像域转移到视频域，我们利用补丁级别跟踪来获取未标记视频中的匹配图像对。因此，我们的方法无需使用经验规则（例如缩放和旋转）就可以捕获视频序列中存在的实际目标外观变化，而无需增加静态图像。此外，我们提出了一种视频间变换，该变换在优化目标方面与对应学习一致，同时保留了不同实例嵌入之间的对比特征。在我们的框架中，类似于现有技术（Von drick等，2018; Li等，2019），图像像素应与当前视频中的对应像素匹配，以满足自我监督。此外，这些像素还被迫与其他视频中的像素不匹配，以增强实例级别的辨别力，该辨别力是通过对一批视频进行对比变换而得出的，如图1所示。转换一致性以及视频间关联性的稀疏性约束，我们的框架鼓励在对应框架内进行对比嵌入学习。在这里插入图片描述

图1：提出的方法针对使用未标记视频来学习对应语言。以前的工作主要关注每个视频剪辑中的内容转换。
我们的框架同时跟踪（视频内级别）和扩展（视频间级别）功能嵌入，以保留细粒度的匹配功能，同时鼓励进行对

最低0.47元/天解锁文章

听我的错不了

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
Contrastive Transformation for Self-supervised Correspondence Learning用于对应性自监督学习的对比变换

Abstract在本文中，我们着重于在野外使用未标记的视频对视觉对应进行自我监督学习。我们的方法同时考虑了视频内和视频间表示关联，以进行可靠的对应估计。视频内学习经由帧对相似性在单个视频内的帧之间转换图像内容。为了获得实例级分离的判别表示，我们超越了视频内分析，并构建了视频间亲和力，以促进跨不同视频的对比转换。通过强制视频内和视频间级别之间的转换一致性，可以很好地保留细粒度的对应关系，并有效地增强实例级别的特征区分。我们的简单框架在一系列视觉任务（包括视频对象跟踪（VOT），视频对象分段（VOS
复制链接

扫一扫