[对比学习][何凯明]Exploring Simple Siamese Representation Learning

scenenight

已于 2024-10-03 09:16:09 修改

阅读量613

点赞数 12

文章标签：学习深度学习人工智能计算机视觉

于 2024-10-03 09:15:37 首次发布

本文链接：https://blog.csdn.net/wwwwwsssllll/article/details/142688872

版权

研究背景

本文是何凯明先生的又一力作，本文的研究背景主要围绕当前无监督学习和自监督学习在视觉表示学习中的进展，以及其中的一些核心挑战。Siamese网络已经成为无监督表示学习中常用的架构，但现有方法通常依赖于一些特定的策略（如负样本对、大批量训练、动量编码器等）来防止模型崩溃解（即输出收敛到常数）。这些策略增加了模型的复杂性和计算成本。

论文试图回答以下问题：

能否在不使用负样本对的情况下有效地进行无监督学习？
动量编码器是否对于防止表示崩溃是必须的？
是否有更简单的架构能达到相似的效果？

因此，本文提出的 SimSiam 是在此背景下进行的研究，它通过取消负样本和动量编码器，利用简单的 Siamese 网络和 停止梯度（stop-gradient） 操作，来实现无监督的表示学习，并取得了有竞争力的结果。

这篇论文的研究背景源于对无监督学习简化的需求，目的是探索更简单的、但仍然有效的无监督学习方法。

核心方法

本文的核心方法是提出了一种名为 SimSiam 的无监督学习方法，它是一种基于 Siamese 网络 的自监督学习框架。SimSiam 的最大特点是，它不依赖负样本对、不需要动量编码器，并通过一个**停止梯度（stop-gradient）**的机制来避免崩溃解的发生。

核心方法的主要组成部分：

Siamese 网络架构：
- SimSiam 采用了双分支的 Siamese 网络，即两个共享权重的编码器网络分别处理同一图像的两个不同增强视图（如裁剪、翻转等）。通过最大化这些增强视图之间的相似性，模型学会生成一致的特征表示。
停止梯度（Stop-Gradient）操作：
- 在 SimSiam 的网络架构中，一个分支通过一个预测器（Predictor）生成预测输出，而另一个分支通过 停止梯度 操作防止其表示更新。具体来说，停止梯度操作阻止目标分支的输出参与反向传播，但仍然可以作为目标用于训练在线分支。
- 这种设计的目的是防止网络陷入“崩溃解”（即所有输出都收敛为常数），使得网络能够保持稳定的学习，同时减少了对负样本和动量编码器的依赖。
无负样本对与动量编码器：
- SimSiam 的创新之一是消除了负样本对和动量编码器。在其他方法（如 SimCLR 和 MoCo）中，负样本对被用来拉开不同样本之间的距离，动量编码器则用于生成稳定的目标表示。
- SimSiam 通过最大化相同图像不同视图的相似性，并通过停止梯度保持目标稳定性，来解决这一问题。
预测器（Predictor）：
- 在 SimSiam 中，一个重要的组件是预测器网络，它被添加在在线分支中，用于生成与目标分支匹配的预测表示。预测器为网络增加了非对称性，帮助在线分支更好地拟合目标表示，从而避免表示崩溃。
对称损失（Symmetrized Loss）：
- SimSiam 的损失函数采用对称结构，计算两个分支间的相似性：一个分支的输出通过预测器与另一个分支的表示进行比较，反之亦然。这一设计进一步增强了模型的稳定性，并促使网络更好地学习。

核心流程：

输入一张图像，通过数据增强生成两个不同的视图。
这两个视图分别输入到共享权重的 Siamese 网络中，生成两个特征表示。
一个分支通过预测器生成预测表示，而另一个分支通过停止梯度保持输出稳定。
最大化两个增强视图的相似性，网络通过反向传播更新在线分支的参数。
最后，交换两个视图的角色，重新计算对称的损失，从而使网络在训练中更加稳定。

论文方法分析

本文是在BYOL的改进之上而来，由于概念简单，SimSiam可以作为连接多个现有方法的中心。简而言之，可以被认为是“没有动量编码器的BYOL”。与BYOL不同，与SimCLR和SwAV相似，他直接在两个分支之间共享权值，因此也可以认为是“没有负对的SimCLR”和“没有在线聚类的SwAV”。有趣的是，SimSiam通过删除一个核心组件与每种方法相关联。即使如此，SimSiam也不会导致崩溃，并且可以执行竞争性操作。

总结：

SimSiam 的核心方法在于通过停止梯度操作和预测器的引入，简化了无监督学习中的训练机制，使得模型在没有负样本和动量编码器的情况下，依然能够有效学习到有用的表示。

SimSiam 在 ImageNet 线性评估任务中表现出了有竞争力的性能。经过 100 轮、200 轮和 800 轮的预训练，其准确率分别为 68.1%、70.0% 和 71.3%，达到了较好的表现，尤其是在没有使用负样本和动量编码器的情况下。
在与其他无监督学习方法（如 SimCLR、BYOL、MoCo 等）的对比中，SimSiam 在短期训练中（如 100 轮或 200 轮）表现尤为突出，并且在较长训练时间（如 800 轮）时，仍能取得与这些方法相当的效果。

scenenight

关注

12
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫