Exploring Patch-wise Semantic Relation for Contrastive Learning inImage-to-Image Translation Tasks

奔跑的根号3

已于 2022-07-17 18:37:26 修改

阅读量827

点赞数

文章标签：计算机视觉

于 2022-07-04 18:01:45 首次发布

本文链接：https://blog.csdn.net/weixin_53262883/article/details/125602086

版权

[cvpr 2022]文章解读

最近，人们提出了基于对比学习的图像翻译方法，该方法通过对比不同的空间位置来增强空间对应性。
然而，这些方法往往忽略了图像中不同的语义关系。为了解决这个问题，我们提出了一种新的语义关系一致性（SRC）正则化和解耦对比学习，该正则化通过关注单个图像的图像块之间的异构语义来利用不同的语义。为了进一步提高性能，我们提出了一种利用语义关系进行a hard negative mining的方法。我们在三个任务中验证了我们的方法：单模态和多模态图像翻译，以及用于图像翻译的GAN压缩任务。实验结果证实了我们的方法在所有三个任务中的最先进性能。

图像到图像翻译任务的主要目标之一是学习从源域到目标域的映射函数，以便在转换与目标域相似的外观时保留内容。循环一致性损失通过转换图像的逆映射来增强输入图像和重建图像之间的一致性，广泛应用于各种框架中。然而，它需要额外的生成器和鉴别器来学习逆映射。
而且声称循环一致性约束可能由于其过度限制性约束而产生失真。因此，建议采用单侧图像翻译方法，通过增强输入和输出之间的对应关系来绕过循环一致性约束。

CUT首次利用对比学习来研究输入图像和输出图像在同一位置像素的相互信息。（在计算机视觉中，对于目标检测和分割任务，无监督对比学习方法甚至优于有监督的预训练。）NEGCUT
通过构建难负样本hard negative samples。但是，该方法需要额外的训练一个负例生成器。和真实负例的的分布不一样会造成训练的不稳定。F-LSeSim利用patch-wise similarity map（对应于piexl像素，即操作和研究的尺度），忽视了patch之间的语意联系。

在这篇文章里利用一个图片里丰富的语意信息进行对比学习。关键的思想是使用Consistency Regularization在相似的位置维持空间语义关系。特别的，根据分布的相似性我们捕捉到了Patch级别的语意联系，使它们在翻译过程里得到增强和保留。这种语义归一化避免了不符合语意的图像伪影的产生。我们还提出来一个负例生成策略。这个策略更注重困难的语意。以上内容its capability of utilizing semantic relationship，，是模型性能出众的关键。

**Consistency Regularization 的主要思想是：对于一个输入，即使受到微小干扰，其预测都应该是一致的。 **

相关工作

One-sided image translation

为了取代循环一致性，许多单侧图像翻译方法利用了输入图像和翻译图像之间的关系知识和对应关系。例如，GcGAN[9]利用一致性进行图像的几何变换，DistanceGAN[4]对一组图像内的共同信息实施consistency regularizationy一致性正则化。TraVeLGAN[1]中的方法保留了嵌入向量的算术特性。

许多对比学习方法，希望最大限度地利用输入和输出图像相同位置之间的共同的信息。但是，每种方法都有像上面讨论内容中的缺点。事实上，我们的方法旨在通过利用如下所述的关系知识转移来克服现有工作的局限性。

Relational knowledge transfer 关系知识迁移

捕捉数据之间结构化相互依存关系的关系知识对于知识蒸馏（KD）任务非常有用，特别是，学生模型还利用了教师模型学习到的样本间关系，因此以更有效的方式进行知识转移。

人们提出了各种方法来获取关系知识，例如角度关系和距离关系，特征空间内的实例相关[22]、对比关系[29]、通过网络学习的特征和梯度关系[35]

因此，我们有兴趣利用语义关系知识来增强图像翻译任务的输入和输出对应。

作者的思路

As many previous KD approaches transferred the relational knowledge to enhance the correspondence between student features and teacher features, we match the semantic relational knowledge to enhance the correspondence between input features and output features for image translation tasks.

匹配语义关系知识以增强图像翻译任务的输入特征和输出特征之间的对应。

对比学习

比学习不需要知道每张图的真实标签，只需要知道到谁与谁相似，谁与谁不相似。编码一类图像衡量相似性。