CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval ICCV-2019 20200925

最新推荐文章于 2023-12-13 15:11:40 发布

L_xj

最新推荐文章于 2023-12-13 15:11:40 发布

阅读量1.2k

点赞数

分类专栏：论文笔记文章标签：神经网络

本文链接：https://blog.csdn.net/weixin_45065738/article/details/108800227

版权

论文笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval ICCV-2019 20200925

摘要

人在进行图文检索的过程，交替注意图像中的区域和句子中的单词，并考虑两种形式之间的相互作用来选择最显著的信息。

之前：

将图像和文本独立的嵌入空间中计算两者的相似性，没有探索图像和文本之间的交互。

本文：

1.提出了CAMP，能够自适应地控制跨模态消息传递的信息流。（我的理解是促进正对传递，抑制负对传递）
2.不仅采用综合和细粒度的交叉模式转换，还采用自适应门控方案正确处理负对和无关信息。
3.此外，代替传统的联合嵌入方法进行文本图像匹配，我们基于融合后的特征来推断匹配分数，并提出一种最硬的负二进制交叉熵损失进行训练。

引言

难点：

视觉和语义之间的异构性

传统做法：
把图像-文本映射在同一子空间，用二者之间的距离来衡量相似性，用ranking loss函数进行训练。（正对的额相似性大于负对的相似性）
缺乏图像和文本之间的交互，导致图像-文本匹配的次优化特征。
/SCAN虽然交互了，但是还是分别映射到子空间。
本文

首先图像中的显著区域和句子中的显著单词应该被关注，还要交替关注来自两个模态的信息，考虑区域和单词之间的相互作用，过滤掉不相关的信息，并为跨模态匹配找到细粒度的线索。
简单的说，找到图像和文本的要点，把两者进行交互有利于捕获用于文本-图像匹配的细粒度跨模态线索。

如何进行交互
提出CAMP，由跨模态消息聚合模块和跨模态门控融合模块组成
用于文本图像检索的消息传递并不简单，并且与以前的消息传递方法有本质的不同，主要是因为存在用于匹配的负对。
在匹配图像-文本中，一些不匹配的信息应该被抑制（比如句子中就没有描述背景的信息，图像中区域的背景就应该被抑制。）
所以来自其他模态的信息与原始特征融合程度，我们使用软融合门自适应地控制消息传递的信息流来解决这个问题。
跨模态消息聚合模块
将对应于每个单词的显著视觉信息聚集为从视觉到文本模态传递的消息，并将对应于每个区域的显著文本信息聚集为从文本到视觉模态的消息。（SCAN）聚集显著的特征相当于ci，将在模块间传递，考虑了单词区域的对应关系，并使模型能够探索细粒度的跨模态交互。
融合存在问题
将原始特征与从另一个模态传递的聚合消息ci融合。存在不匹配对，将负对过滤掉。
跨模态门控融合模块
它来自适应地控制融合强度。
具体来说，当我们将来自一个模态的原始特征与从另一个模态传递的聚合消息融合时，软门自适应地控制信息应该融合到什么程度。对齐的特征在更大程度上被融合。而不对应的特征没有被集中融合，该模型将为负对保留原始特征。
这样融合有什么好处：
跨模态门控融合模块结合了图像和句子之间更深入和更全面的交互，并通过自适应门适当地处理负面对和不相关背景信息的影响。
对于融合后的特征，:如何利用融合后的跨模态信息来推断文本-图像的对应关系？
一个来自图像和句子的联合表示，~~视觉和文本分别嵌入同一空间的假设不再成立，不能使用计算嵌入空间的特征距离，使用排序损失进行训练。~~
**基于融合后的特征直接预测跨模态匹配分数，并利用最硬负对的二元交叉熵损失作为训练监督。**能够从两种模态中保存更全面的信息，并充分探索细粒度的跨模态交互。

CAMP

将原始信息与从另一个模态传递的聚合信息融合，这并不简单，因为融合负(不匹配)对使得难以找到信息对齐。我们引入了我们的交叉模式门控融合模块，以自适应地控制对齐和未对齐信息的融合。

Cross-modal Message Aggregation
这种信息聚合使得信息能够在文本和视觉信息之间流动，并且用于聚合信息的跨模态注意力为每个单词/区域选择最显著的跨模态信息。
与SCAN的区别，在计算区域和单词相似性的时候，先将各自特征投影到低维空间中，这样能够减少计算，考虑会不会影响真实的结果。
Cross-modal Gated Fusion
跨模态消息聚集模块聚集每个单词/区域的最显著的跨模态信息，作为要在文本和视觉模态之间传递的消息，并且聚集消息的过程能够实现模态之间的交互。
然而，通过这样的机制，单词和区域特征仍然是从每个模态分别聚合的，而不是融合在一起的。
为了探索图像和句子之间更深更复杂的相互作用，我们面临的下一个挑战是如何将来自一个模态的信息与来自另一个模态的信息融合。（考虑融为一体才是好吗）
做到在很大程度上融合匹配对的文本和视觉特征，并抑制不匹配对的融合。
Fused Feature Aggregation for Cross-modal

L_xj

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval ICCV-2019 20200925

CAMP: Cross-Modal Adaptive Message Passing for Text-Image Retrieval ICCV-2019 20200925摘要人在进行图文检索的过程，交替注意图像中的区域和句子中的单词，并考虑两种形式之间的相互作用来选择最显著的信息。之前：将图像和文本独立的嵌入空间中计算两者的相似性，没有探索图像和文本之间的交互。本文：1.提出了CAMP，能够自适应地控制跨模态消息传递的信息流。（我的理解是促进正对传递，抑制负对传递）2.不仅采用综
复制链接

扫一扫