Context-Aware Attention Network for Image-Text Retrieval——2021CVPR 中科院

一、研究背景

跨模态问题,图像–文本的双向检索严重依赖于每个图像-文本的联合嵌入学习以及相似性度量。很少有人同时探索单个模态中模态和语义相关性之间的对应。

二、作者对本文的贡献

1、提出了上下文感知注意力网络,可以从全局的角度基于给定的上下文来适应的选择信息片段。其中包括a:单个模态内的语义相关性 b:区域与单词之间的可能的对齐方式。
2、提出了使用语义注意力来捕获模态内的潜在相关性。并且图片选定区域与单词对其的二阶注意是具有可解释性的。

三、本文作者的动机

在以往的研究中,很少有人关注单一模态中,模态之间的语义对应和语义关联。(作者从更加细粒度的角度看待跨模态的检索问题)

四、作者的方法与框架

1、Method

假设一个输入图像文本对,我们首先将图像中的区域和句子中的单词嵌入到以共享空间中。具体的,对图像使用the bottom-up attention生成图片区域以及对应的表示V,同时,对于句子中的单词进行基于上下文的编码,生成文本表示U,在关联模块(context-aware attention network)中使用CAAN提取局部特征,捕捉 region-word pairs之间的语义对其和在单个模态内片段之间的语义相关性。最后通过图像与文本的匹配损失对模型进行训练。
在这里插入图片描述

2、Visual Representations
对图像采取注意力机制的原因:

给定一幅图像,我们观察到人们倾向于频繁提及显著的物体,并描述它们的动作和属性等,因此我们不从像素级图像中提取全局CNN特征,而是关注局部区域,并利用自下而上的注意力。

对于输入的图像,我们使用 Fast R-CNN与RestNet-101对图片进行特征提取,并通过一个线性层将其映射到D维空间。

3、Textual Representations

将文本句子中的单词进行One-Hot 编码后进行输入(不是单独处理每个单词,而是同时考虑单词及其上下文进行编码),通过单词嵌入层映射为300维的特征向量输入到GRU网络得到文本的特征表示通过线性层映射到D维空间。
在这里插入图片描述
在这里插入图片描述

4、上下文感知注意里网络

将得到的图像-文本特征表示进行特征融合,得到融合矩阵H,通过对融合矩阵H进行纵向矩阵计算得到image的inter-model Attention,进行后续矩阵计算得到intra-model Attention,对融合矩阵横向矩阵计算得到text的inter-model Attention后计算得到intra-model Attention。(这篇论文的框架方法中比较难看懂的就是这里的矩阵计算,看懂之后又会觉得难度适中,文中很神奇的时将一系列矩阵操作与模态间和模态内的注意力联系起来,非常新颖)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

五、实验结果

在这里插入图片描述
消融实验
在这里插入图片描述

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 7
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值