Stacked Cross Attention for Image-Text Matching (EECV 2018)笔记

最新推荐文章于 2024-07-11 09:23:32 发布

L_xj

最新推荐文章于 2024-07-11 09:23:32 发布

阅读量761

点赞数 1

分类专栏：论文笔记文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_45065738/article/details/108135032

版权

论文笔记专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Stacked Cross Attention for Image-Text Matching (EECV 2018)

在这里插入图片描述

碎碎念

本文使用了传统的注意力机制学习关注给定语义上下文的图像区域。文章的最终目标是将单词和图像区域映射到一个共同的嵌入空间，以推断整个图像和完整句子之间的相似性。
重点是如何应用Stacked Cross Attention对齐图像区域和单词特征。

正文

文章分为图像-文本匹配和文本图像匹配，之所以不同是因为文章的题目，堆叠交叉注意。。哈哈哈
之所以不同，要从模型的思想说起。
要找到相同的图像-文本匹配，就需要找到对应的区域-词。在一张图像和句子的匹配中，区域-词的对应一定是一对一或一对多的吗？答案绝大多数我们所接触的对应是多对多的；如何实现这种多对多那。
Lee 等提出的堆叠交叉注意实现这一想法。它将多对多先分成一对多的，即图像-文本匹配和文本-图像匹配的两种匹配，思想是相同的，只是操作对象不同。

图像-文本匹配：

在这里插入图片描述
简单来看，这个模型就是用一个图像区域来找句子中的词，看一看有哪些词和区域对应，并给他们分配一定的比例，这个比例需要按照相似度来分配比例，用到softmax函数。，将每个词的比例作为每个词与区域对应词的权重，再乘上每个词的特征，把处理后的所有词聚合起来，得到一个新的与指定区域相关的句子向量（重组后的词特征：按注意力机制提取出和该区域具有相似性的句子中的所有词）。再计算区域与这次相关句子的相似性。最后把每个区域与关注句子得分聚合起来，再平均。这样计算词和句子的相似性，加入了注意力机制，重要的部分占有多的比例，而不是所有的词和句子有相同的比例。 有利于图文匹配的准确性。
如果区域与所有的词计算相似度，最后选择最大的相似度，这样会忽略一些重要的次要信息，没有结合句子的上下文。

思考
如果是所有的相似度取平均，也将一些不相关的信息计算到其中，从而忽略了一些重要的信息。
但是文中这样聚合起来生成一个代表与区域相关的新特征，会不会影响准确度。

L_xj

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Stacked Cross Attention for Image-Text Matching (EECV 2018)笔记

Stacked Cross Attention for Image-Text Matching (EECV 2018)碎碎念本文使用了传统的注意力机制学习关注给定语义上下文的图像区域。文章的最终目标是将单词和图像区域映射到一个共同的嵌入空间，以推断整个图像和完整句子之间的相似性。重点是如何应用Stacked Cross Attention对齐图像区域和单词特征。正文文章分为图像-文本匹配和文本图像匹配，之所以不同是因为文章的题目，堆叠交叉注意。。哈哈哈之所以不同，要从模型的思想说起。要找到
复制链接

扫一扫