Stacked Cross Attention for Image-Text Matching (EECV 2018)笔记

Stacked Cross Attention for Image-Text Matching (EECV 2018)

在这里插入图片描述

碎碎念

本文使用了传统的注意力机制学习关注给定语义上下文的图像区域。文章的最终目标是将单词和图像区域映射到一个共同的嵌入空间,以推断整个图像和完整句子之间的相似性。
重点是如何应用Stacked Cross Attention对齐图像区域和单词特征。

正文

文章分为图像-文本匹配和文本图像匹配,之所以不同是因为文章的题目,堆叠交叉注意。。哈哈哈
之所以不同,要从模型的思想说起。
要找到 相同的图像-文本匹配,就需要找到对应的区域-词。在一张图像和句子的匹配中,区域-词的对应一定是一对一或一对多的吗?答案绝大多数我们所接触的对应是多对多的;如何实现这种多对多那。
Lee 等提出的堆叠交叉注意实现这一想法。它将多对多先分成一对多的,即图像-文本匹配和文本-图像匹配的两种匹配,思想是相同的,只是操作对象不同。

图像-文本匹配:

在这里插入图片描述
简单来看,这个模型就是用一个图像区域来找句子中的词,看一看有哪些词和区域对应,并给他们分配一定的比例,这个比例需要按照相似度来分配比例,用到softmax函数。,将每个词的比例作为每个词与区域对应词的权重,再乘上每个词的特征,把处理后的所有词聚合起来,得到一个新的与指定区域相关的句子向量(重组后的词特征:按注意力机制提取出和该区域具有相似性的句子中的所有词)。再计算区域与这次相关句子的相似性。最后把每个区域与关注句子得分聚合起来,再平均。这样计算词和句子的相似性,加入了注意力机制,重要的部分占有多的比例,而不是所有的词和句子有相同的比例。 有利于图文匹配的准确性。
如果区域与所有的词计算相似度,最后选择最大的相似度,这样会忽略一些重要的次要信息,没有结合句子的上下文。

思考
如果是所有的相似度取平均,也将一些不相关的信息计算到其中,从而忽略了一些重要的信息。
但是文中这样聚合起来生成一个代表与区域相关的新特征,会不会影响准确度。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值