Stacked Cross Attention for Image-Text Matching
一、这篇文章的研究目的是什么?
作者所研究的问题是图像与文本的匹配,作者认为之前的许多工作只是简单的简单地聚合了所有可能对区域和单词的相似性,并没有分析哪些单词或者区域更重要,哪些不重要,因此作者的目的是推理目标或者其他显著实物与对应句子中单词的潜在语义对其来捕获视觉与语言之间细粒度的交互作用,并且使图像文本的匹配更具解释性。
二、作者最主要的发现是什么?
作者发现当人们描述他们所看到的东西时,经常参考图像中的对象和其他突出的东西,以及它们的属性和动作(如图所示)照片中最突出的是几个人,一只狗,自行车等,所以对图进行描述的时候人会关注最突出的信息进行描述,所以只要学习到他们的对应关系,就可以达到好的匹配效果。从某种意义上说,句子描述是薄弱的注释,其中句子中的单词对应于图像中的一些特定但未知的区域。因此推动图像区域和单词之间的潜在对应关系是通过捕获视觉和语言之间的细粒度相互作用来推断更可解释的图像文本匹配的关键。
作者对此进行了验证,证明关注句子中的单词与视频中的区域的潜在语义对其关系的挖掘是有效的,提出了Stacked Cross Attention机制 。
三、作者的研究方法是什么?
Image to Text
Text to Image
3.1 特征提取
图像使用:Bottom-Up Attention(Faster R-CNN + Resnet-01)
文本使用:双向GRU
3.2 异质性问题
假设一张图片I有k个检测区域,句子T有n个单词,对每个检测区域与每个单词进行相似度的计算:
对相似度矩阵中值为负的置零,并把每个检测区域在同一个单词上的相关性进行归一化
同样,每个单词在同一检测区域的相关性归一化,lamda为超参数,α的值即为第i个检测区域与j个单词的相关性,值越大相关性越高。
然后使用相似性矩阵的值与word相乘并求和,得到每个检测区域与整个句子的相关性后使用学习图像的重要检测区域,使其得到更多的关注。(通过句子中的单词来决定图像中的重要区域,我认为也解决了多模态数据中的异质性问题)
Text to Image 相同
3.3 目标对其(我认为也可称作语义上的对其)
这里的对其作者使用的是Triplet loss + 困难样本挖掘去对齐
Triplet loss
Triplet loss + 困难样本挖掘
3.4 实验数据集+结果
作者使用MS-COCO 与 Flickr30进行试验,结果如下:
四、实验设计有什么highlight吗?
后续补充
五、作者的下一步计划是什么?
后续补充
六、有什么可以改进的地方?
后续补充