More Grounded Image Captioning by Distilling Image-Text Matching Model

@《More Grounded Image Captioning by Distilling Image-Text Matching Model》

《More Grounded Image Captioning by Distilling Image-Text Matching Model》论文笔记

– cvpr2020 –

Abstract

  1. visual attention机制在caption模型中的应用大大提高了image captioning的性能,不仅如此,attention机制还用作一个visual interpretation来定性地对生成的图像caption合理性以及模型的透明度进行测量;
  2. 在caption模型生成每一个单词的时候,希望能利用attention机制来attend到与该单词对应的图像内的objects,也即:grounded image captioning。但是当前的caption模型中的attention模块在这个方面的表现往往差强人意;
  3. 在保持当前模型生成captions质量的前提下,本文希望能够提升attention模块的grounding准确度,然而,如果使用全监督的方式,即用region-word对应标注来训练attention模块的话需要昂贵的人力标注成本,所以本文提出了一种弱监督的方式来对attention模块进行训练,避免了region-word标注的使用;
  4. 文章使用了一个图文匹配模型(SCAN)来对caption模型中的attention结果进行弱监督。

SCAN与POS-SCAN

这里简要介绍一下SCAN这个image-text align 模型,该模型有主要有两个输入,一个是图像I:使用faster rcnn提取出的region特征表示{f1,f2,…fi,…fn},另外一个是句子T:各单词的emmbeding表示;由于接下来要计算两者之间的余弦相似度,所以要把这两类特征映射到同一向量空间。
图像的每个region特征经过一个线性变换:
在这里插入图片描述
使用一个双向GRU对单词进行embed:
在这里插入图片描述
在这里插入图片描述
将映射到同一向量空间的两类特征的各分量进行余弦相似度测量:Sit代表的是第i个region和第t个word之间的余弦相似度:
在这里插入图片描述
归一化:
这里[x]+表示max{0,x}
以下相当于以et作为query对各个region vi做attention,获得一个attend向量:
在这里插入图片描述
再将上述获得的attend向量与对应的et做余弦相似度测量获得一个分数R,将各个et对应的分数加和、平均,就获得了最终的I和T相似度分数S(I,T),也就是网络的输出:
在这里插入图片描述
训练SCAN网络的损失函数:
在这里插入图片描述
(目的就是尽量拉开正确匹配和最易混淆匹配(即除了正确匹配,第二“正确”匹配)之间的差距)
同时,文章提到,使用SCAN模型得到的attention系数(即公式5中的alpha,虽是该图文匹配模型的一个副产物,但是是这个模型真正派上用场的地方)在交叉熵训练阶段作为caption模型attention的监督,实验获得的效果却不如想象中的好,甚至比不加这个弱监督的原模型(如:updown)的grounding效果还差,作者给出的原因是说可能由于caption中大量non-visual(一般也可理解为非名词,如a, of, inside等)的存在,无法对应到图片中具体的region,所以就小小的改动了一下SCAN模型------>POS-SCAN,即在计算S(I,T)的时候,仅让名词参与计算,公式(6)变成了:
在这里插入图片描述
作为弱监督加入caption模型后效果确实变好了,文章说这里POS-SCAN的作用是(attention guider)

Figure 1. Visualizations of five different word-region alignment results, where all the models are trained without any word-region alignment ground-truth. Words and the corresponding attended region with maximum weight are marked with the same color. POS-SCAN (cf. Section 3.1) is a revised image-text matching model, Up-Down (cf. Section 3.2) is a state-of-the-art image captioning
model. Best viewed in color.
上图可视化了各个模型中attention模块得到的图像region和文本描述中名词的对应权重,其中,横坐标代表的是图像区域,这里是用faster R-CNN 提取出的36个区域特征,纵坐标为caption中的名词,图中的小方块颜色越深则说明生成对应单词时对第i个区域关注度越大。前三张图分别是POS-SCAN, UP-DOWN, SCAN模型在ground truth句子上的对比(注意,这里的ground truth并非是region-word标注,就是一般的caption标注),可以看出POS-SCAN的grounding效果最好,最后两张图则代表了在模型生成句子时的可视化效果,分别是up-down模型是否加上POS-SCAN结果弱监督的效果。明显图d的权重在实际对应的图像区域权重比图e上相应的权重少,更加分散,表现不好。

模型框架

在这里插入图片描述
这里的caption generator是一个up-down模型
弱监督的训练损失函数:
在这里插入图片描述
由于实验部分用到的一个数据集本身就包含了region-word标注,这里也给出有ground-truth(redion-word的)时的损失函数:
在这里插入图片描述
强化学习阶段:
在这里插入图片描述
在这里插入图片描述
实验发现将SCAN的S(I,T)作为reward的一部分会比仅CIBEr或者CIDEr+POS-SCAN效果好:(后续实验结果里会有比较)
在这里插入图片描述

实验

在这里插入图片描述

参考文献:Yuanen Zhou, Meng Wang, Daqing Liu, Zhenzhen Hu, Hanwang Zhang. More Grounded Image Captioning by Distilling Image-Text Matching Model.The IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2020, pp. 4777-4786.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值