BUTD(Bottom-Up and Top-Down Attention)论文解读
传统的注意力模型,各区域对应等大的网格,没有与图像中的内容相关。文中提出一种方法,结合自下而上与自上而下的注意力机制。

一、自下而上的注意力模型
注意力区域:bounding box,如上面右图所示。
使用Faster RCNN实现自下而上的注意力模型
Faster R-CNN可以简单地看做“区域生成网络RPNs + Fast R-CNN”的系统,用区域生成网络代替Fast R-CNN中的Selective Search方法。
这里对FasterRCNN的原理不做过多探究。可以理解为一个黑箱,利用目标检测中的RPN网络,能够高效准确的选出值得关注的候选区域bounding box。
二、Caption Model
1、Top-Down Attention Model
首先将各区域图像特征取平均,同前一language LSTM的输出与先前生成的词编码一起喂给Attention LSTM。
论文解释,这样做的目的是让attention LSTM能最大程度的接受language LSTM、图片的全部内容、与目前产生的caption。
词嵌入不是预先训练好的参数,而是随机初始化的。

之后的注意力模型就比较好理解,与之前SAN等经典注意力模型的思想类似。


vi 是每一区域的图像特征向量。
2、Language LSTM
用注意力模型得到的图像特征向量与Attention LSTM的输出作为Language LSTM的输入。最后全连接加softmax获得该位置输出各词汇的概率。

三、VQA Model

不同之处在于将question的文本序列通过GRU获得的问题特征向量同各个区域的图像特征向量一起输入Top-Down Attention Model,过两层全连接加softmax得到注意力权重。
之后将问题向量的特征与注意力加权后图像特征按元素相乘,加两个全连接和sigmoid,得到预选答案的评分。
值得一提的是,作者在这里用到的激活函数是一种叫做gated hyperbolic tangent activations的东西。据经验,比relu与tanh有更好的效果。

四、注意力模型结果展示
论文中的配图非常的amazing啊


caption任务中每轮输出词之前都会根据目前的attention LSTM与当前的部分caption和language LSTM变换attention区域
vqa任务是根据问题描述与图像特征直接固定某一注意力区域。
其实注意力机制的运用在vision language的这两大任务中的运用基本类似。
389

被折叠的 条评论
为什么被折叠?



