image caption笔记(七):《Bottom-Up and Top-Down Attention》

      仍然是对attention机制的扩展。可以看到,现在的工作,基本都添加了attention机制,要么是spitial attention,要么是semantic attention。

      文章的主要贡献包括:
    (1)提出了一个新的lstm组合模型,包括了attention lstm和language lstm 两个组件。在这个 组合模型的基础上引入spitial attention机制(类似于《show,attend and tell》的top-down attention机制),可以实现比此前最佳scst(self critic)模型略好的效果。

    (2)引入了bottom-up,bottom-up机制基于 faster r-cnn提出图像区域,每个区域具有相关的特征向量。

    (3)为了提升提取特征的能力,对Faster R-CNN的输出和损失函数做了添加。设计了属性分类的部分。

      这样把top-down和bottom-up组合起来得到联合注意机制。bottom-up机制提出图像区域,确定每个区域的特征向量,而top-down的机制确定特征权重。其实在某种程度上来看,bottom-up的机制,相当于更精细的hard attention,因为是给确定的少数区域特征加权重。

 

 

      作者的想法源自于,原本的attention机制是把特征图平均的划分为14*14=196块,然后给它们配权重。作者认为,我们应当把注意力更多地放在图中的对象上(聚焦主要目标)。

 

       模型结构:

  1. 首先使用在ImageNet上预训练好的resnet-101初始化Faster R-CNN,然后在VG数据集上开始训练。训练的时候,原本的输出是类标签上的Softmax分布和BBs。为了提升网络提取特征的能力,在原本输出和损失函数的基础上,作者新添加了一个新的输出和损失,用于训练一个额外的属性预测器。

     将某个区域的平均池化卷积特征vi与该区域ground truth的目标类别embedding连接起来,接softmax,输出是属性类别数+1,也就是除了每个属性之外,加了一个‘no attribute’。

      训练完成后,使用当前模型提取不同区域的特征,预测的标签和属性不用。

  1. Caption模型部分,作者设计了两个lstm:

attention lstm(记为1)和language lstm(记为2)

(1)attention lstm的主要功能是产生权重,进而生成 特征组合成的上下文变量。

         每个时刻的输入包括三部分:language lstm前一个时刻的隐藏态、所有区域特征的平均值、前一个时刻预测出单词的embedding。经过lstm单元以后,与《show ,attend and tell》类似,产生权重和上下文变量 ,只不过把上下文变量由变成了来表示。

                  

                              

(2)language  lstm用于预测下一个单词

                               

 

 

实验结果:

       既使用了损失函数来训练,也仿照着scst用同样的策略来优化评价指标。在优化评价指标的时候,

利用这种方法,文章在一个epoch内完成了CIDER的优化。感觉这部分的工作大大节省了时间,

但是没看太懂,需要去了解一下beam search,跑一跑相关的代码。

 

 

不使用bottom-up的情况下  resnet的baseline 比 scst取得了略优的性能。加入bottom up 机制以后甩开差距。但是 scst是取了四种初始化方式中最好的一种,这种方法只取了一种。

不过加了CIDER优化后,二者不分伯仲。后者的结构更复杂一些,个人认为本文的caption 两个lstm的效果可能略好,但是在引入CIDER优化后,并没有优势。

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值