Abstract
在无监督的视觉表示学习的各种最新模型中,暹罗网络已经成为一种常见的结构。 这些模型在避免某些方案崩溃的某些条件下,可以最大化一幅图像两次增强之间的相似性。 在本文中,我们报告了令人惊讶的经验结果,即使用简单的暹罗网络即使不使用以下任何一项也可以学习有意义的表示形式:(i)负样本对negative sample pairs,(ii)大批量large batches,(iii)动量编码器momentum encoders 。 我们的实验表明,对于损失和结构确实存在 崩溃解 , 但是停止梯度操作在防止崩溃中起着至关重要的作用 。 我们提供了关于停止梯度含义的假设,并进一步显示了验证它的概念验证实验。 我们的“ SimSiam”方法在ImageNet和下游任务上取得了竞争性结果。 我们希望这个简单的基准能够激励人们重新思考Siam架构在无监督表示学习中的作用。 代码将可用。
1. Introduction
最近,非/自我监督的表示学习取得了稳步的进展,在多个视觉任务上取得了令人鼓舞的结果(例如[2、17、8、15、7])。 尽管有各种原始动机,这些方法通常涉及某些形式的孪生网络[4]。 暹罗网络是应用于两个或多个输入的权重共享神经网络。 它们是比较(包括但不限于“对比”)实体的自然工具。 最近的方法将输入定义为一个图像的两次扩充,并在不同条件下最大化相似性。
孪生网络不希望有的简单解决方案是所有输出都“崩溃”到一个常数。 有几种防止孪生网络崩溃的一般策略。 对比学习[16](例如在SimCLR [8]中实例化)排斥不同的图像