CrossCLR: Cross-modal Contrastive Learning for Multi-modal Video Representations, 2021 ICCV

**本文内容仅代表个人理解,如有错误,欢迎指正**

1. Points

这篇论文主要解决两个问题

1. 跨模态对比学习(Cross-modal Contrastive learning)更注重于不同模态下的数据,而非同一模态下的数据。

- 也就是说,将不同模态下的数据投影到Joint space时,希望paired samples(eg, Image1和Text1)之间的距离可以尽可能地小,unpaired samples(eg, Image1和Text2)之间的距离可以尽可能地大。而忽略了一个问题,即同一模态下语义相近的数据(eg, Image1和Image8, 其中, Image1和Image8在语义上是相近的)被投影到Joint space时,它们之间的距离也应该是相近。

* 因此,提出Inter-Modality and Intra-Modality Alignment,即模态间与模态内都要对齐。

2. 跨模态对比学习(Cross-modal Contrastive learning)中,负样本(Negative sample)的选取很重要,随机进行负样本选取容易产生语义冲突(Semantic Collision)。

- 之前对比学习方法在选取负样本时,或在mini-batch中随机抽取样本作为负样本,或将mini-batch中除paired sample外的样本均取为负样本。这样做的问题在于,如果此时负样本实质上与Anchor有着比较高的semantic similarity,那么将它们在Joint space中的距离拉大就有悖于我们对比学习的目的了。

* 因此,定义Influential samples,提出Negative set pruning以及Loss weighting.

## 综上所述,就是提出了CrossCLR loss来约束/缓解上述问题。

2. Background Introduction

对比学习(Contrastive Learning)的思想:给定Anchor以及与它相对应的Positive sample和Negative sample,当将它们投影到Joint space时,希望能够使得Anchor和Positive samples的距离相近,并使得Anchor和Negative sample相远离。

有一系列的Losses可以帮助model实现以上思路:Max-margin loss, Triplet loss, InfoNCE, etc.

以上Loss,相比于本文所提出的CrossCLR,忽略了一个问题,即False negative samples存在的可能性(即有些被认为是Negative samples的sample实质上与Anchor存在较高的语义上的相似性),盲目地将其与Anchor之间的距离拉大,会导致语义冲突。

Figure 1 中可以观察到,

图a)和b)一方面只关注不同模态间数据的相似性;另一方面没有考虑False Negative sample的存在,一心只想拉近paired samples间的距离和拉远unpaired samples间的距离。

而图c)CrossCLR同时考虑了不同模态间以及同一模态内数据的相似性,亦充分考虑到False Negative sample的问题,没有刻意拉大Anchor和False Negative sample之间的距离,保证了语义上的一致性。

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
AF(Association Fusion)是一种基于关联的多模态分类方法。多模态分类是指利用多种不同类型的数据(如图像、文本、音频等)进行分类任务。传统的多模态分类方法通常是将不同类型的数据分别提取特征,然后将这些特征进行融合得到最终结果。AF方法则是通过建立数据之间的关联来实现融合。 具体而言,AF方法首先将每个模态的数据进行特征提取,得到对应的特征向量。然后通过计算每个模态之间的相关度来建立模态之间的关联。这个相关度可以通过不同的方法来计算,例如互信息、皮尔逊相关系数等。 接下来,AF方法通过关联度来调整每个模态的权重。具体来说,权重与关联度成正比,关联度越高的模态将获得更大的权重。这样一来,每个模态的重要程度就会根据数据之间的关联度动态调整。 最后,AF方法通过将每个模态的特征与对应的权重进行加权融合,得到最终的特征向量。这个特征向量可以用于进行分类任务。 与传统的融合方法相比,AF方法能够更准确地捕捉到不同模态数据之间的关联信息。这样一来,融合后的特征向量能够更好地反映整个多模态数据的特征,提高分类准确率。 综上所述,AF是一种基于关联的多模态分类融合方法,通过建立数据之间的关联来动态调整每个模态的权重,从而提高多模态分类的准确率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值