[ 对比学习篇 ] 经典网络模型 —— Contrastive Learning

Horizon John

已于 2024-05-17 15:55:43 修改

阅读量3.1k

点赞数 6

分类专栏：经典网络模型文章标签：深度学习对比学习 Contrastive Learning

于 2023-02-20 16:27:04 首次发布

本文链接：https://blog.csdn.net/weixin_45084253/article/details/129102434

版权

经典网络模型专栏收录该内容

29 篇文章

订阅专栏

本文详细介绍了多种基于对比学习的神经网络模型，如InstDisc、InvaSpread、CPC、CMC等，探讨了它们的结构、工作原理和效果。这些模型在无监督特征学习中扮演重要角色，利用数据增强和不同的编码策略来提升模型的表现。同时，文章还提到了LeetCode在算法学习中的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

🤵 Author ：Horizon John

✨ 编程技巧篇：各种操作小结

🏆 神经网络篇：经典网络模型

💻 算法篇：再忙也别忘了 LeetCode

[ 对比学习篇 ] 经典网络模型 —— Contrastive Learning

🚀 01. InstDisc
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 02. InvaSpread
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 03. CPC
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 04. CMC
- 🎨 结构框图
- - 🚩 详解
🚀 05. MoCov1
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 06. SimCLRv1
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 07. Mocov2
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 08. SimCLRv2
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 09. SWaV
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 10. BYOL
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 11. SimSiam
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 12. Mocov3
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 13. DINO
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果
🚀 14. CLIP
- 🎨 结构框图
- - 🚩 详解
  - 🚩 效果

🚀 01. InstDisc

在这里插入图片描述

📜 Paper: Unsupervised Feature Learning via Non-Parametric Instance Discrimination [CVPR 2018]

🖥️ GitHub: lemniscate.pytorch

🎨 结构框图

在这里插入图片描述

Figure 1. The pipeline

🚩 详解

每个图片看成一个类别；
利用 memory bank 来存储图像经神经网络编码后的特征（128维）；
正样本：该图像本身 + 经过数据增强后的图像；
负样本：数据集中其他的图像（从 memory bank 中随机抽取4096个样本）；

超参数设定：

temperatureτ = 0.07；
NCE with m = 4, 096 to balance performance and computing cost；
trained for 200 epochs using SGD with momentum；
batch size = 256；
learning rate is initialized to 0.03, scaled down with coefficient 0.1 every 40 epochs after the first 120 epochs；

🚩 效果

在这里插入图片描述

🚀 02. InvaSpread

在这里插入图片描述

📜 Paper: Unsupervised Embedding Learning via Invariant and Spreading Instance Feature [CVPR 2019]

🖥️ GitHub: Unsupervised_Embedding_Learning

🎨 结构框图

在这里插入图片描述

Figure 1. The framework

🚩 详解

没有使用额外的数据结构去存储大量的样本信息；
正负样本都来自于同一个 minibatch ；
使用同一个编码器进行端到端的学习；
正样本：该图像本身 + 经过数据增强后的图像（2）；
负样本：其他图像 + 经过数据增强后的图像（(batch size-1) × 2）；
未能取得很好结果原因：batch size 太小导致负样本数量较小；

🚩 效果

在这里插入图片描述

🚀 03. CPC

在这里插入图片描述

📜 Paper: Representation Learning with Contrastive Predictive Coding [None 2018]

🖥️ GitHub: None

🎨 结构框图

在这里插入图片描述

Figure 1. Model overview

🚩 详解

可以应用于音频、图片、强化学习；
将输入当成序列，利用前面的输入通过 RNN 或 LSTM 等网络输出来进行预测；
正样本：预测结果；
负样本：随机样本通过 g_enc 得到的结果；

🚩 效果

在这里插入图片描述

🚀 04. CMC

在这里插入图片描述

📜 Paper: Contrastive Multiview Coding [ECCV 2020]

🖥️ GitHub: CMC

🎨 结构框图

在这里插入图片描述

Figure 1. Model overview

🚩 详解

增大不同视角之间的互信息（视觉、听觉、触觉）；
数据集：NYU RGBD，包含原始图像、深度信息、SwAV ace normal、分割图像；
正样本：同一图像的不同视角；
负样本：其他图像；
缺点：不同视角下使用的编码器不一样，计算成本过高；

作者后来又提出了 不同网络 得到的特征也应该尽可能相似；
利用蒸馏网络（teacher net & student net）；

🚀 05. MoCov1

在这里插入图片描述

📜 Paper: Momentum Contrast for Unsupervised Visual Representation Learning [CVPR 2020]

🖥️ GitHub: moco

🎨 结构框图

在这里插入图片描述

Figure 1. Model overview

在这里插入图片描述

Figure 2. Conceptual comparison of three contrastive loss mechanisms

🚩 详解

InstDisc 的改进；
提出了 队列（queue） 来解决 memory bank 中的大字典的问题；
提出了 动量编码器 来解决字典中特征不一致的问题；
利用 动态字典 对队列中的特征进行存储，每一次更新得到的 k 都会取代最开始的 k 值；
动量编码器：y_t = m·y_t-1 + (1-m)·x_t 使输出不完全依赖于当前的输入，还会收到上一个输出的影响，0 ≤ m ≤ 1 ，实现缓慢的更新每一次新的到的 k 值，使字典中的特征尽可能的保持一致；
正负样本都位于队列当中，确保正负样本都是由同一个编码器提取得到的；