CrossCLR: Cross-modal Contrastive Learning for Multi-modal Video Representations, 2021 ICCV

最新推荐文章于 2025-03-05 11:23:50 发布

BachelorSC

最新推荐文章于 2025-03-05 11:23:50 发布

阅读量3.5k

点赞数 3

分类专栏：读读论文文章标签： transformer 计算机视觉人工智能

本文链接：https://blog.csdn.net/weixin_43766746/article/details/123276869

版权

CrossCLR是2021年ICCV上提出的一种方法，旨在解决跨模态对比学习中的模态间和模态内对齐及负样本选取问题。通过Inter-Modality和Intra-Modality Alignment避免语义冲突，并使用Negative set pruning和Loss weighting策略优化对比学习损失，提高多模态视频表示的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

**本文内容仅代表个人理解，如有错误，欢迎指正**

1. Points

这篇论文主要解决两个问题

1. 跨模态对比学习(Cross-modal Contrastive learning)更注重于不同模态下的数据，而非同一模态下的数据。

- 也就是说，将不同模态下的数据投影到Joint space时，希望paired samples(eg, Image1和Text1)之间的距离可以尽可能地小，unpaired samples(eg, Image1和Text2)之间的距离可以尽可能地大。而忽略了一个问题，即同一模态下语义相近的数据(eg, Image1和Image8, 其中, Image1和Image8在语义上是相近的)被投影到Joint space时，它们之间的距离也应该是相近。

* 因此，提出Inter-Modality and Intra-Modality Alignment，即模态间与模态内都要对齐。

2. 跨模态对比学习(Cross-modal Contrastive learning)中，负样本(Negative sample)的选取很重要，随机进行负样本选取容易产生语义冲突(Semantic Collision)。

- 之前对比学习方法在选取负样本时，或在mini-batch中随机抽取样本作为负样本，或将mini-batch中除paired sample外的样本均取为负样本。这样做的问题在于，如果此时负样本实质上与Anchor有着比较高的semantic similarity，那么将它们在Joint space中的距离拉大就有悖于我们对比学习的目的了。

* 因此，定义Influential samples，提出Negative set pruning以及Loss weighting.

## 综上所述，就是提出了CrossCLR loss来约束/缓解上述问题。

2. Background Introduction

对比学习(Contrastive Learning)的思想：给定Anchor以及与它相对应的Positive sample和Negative sample，当将它们投影到Joint space时，希望能够使得Anchor和Positive samples的距离相近，并使得Anchor和Negative sample相远离。

有一系列的Losses可以帮助model实现以上思路：Max-margin loss, Triplet loss, InfoNCE, etc.

以上Loss，相比于本文所提出的CrossCLR，忽略了一个问题，即False negative samples存在的可能性(即有些被认为是Negative samples的sample实质上与Anchor存在较高的语义上的相似性)，盲目地将其与Anchor之间的距离拉大，会导致语义冲突。

从Figure 1 中可以观察到，

图a)和b)一方面只关注不同模态间数据的相似性；另一方面没