VQA学习(三)BUTD注意力机制

BUTD(Bottom-Up and Top-Down Attention)论文解读

传统的注意力模型,各区域对应等大的网格,没有与图像中的内容相关。文中提出一种方法,结合自下而上与自上而下的注意力机制。

一、自下而上的注意力模型

注意力区域:bounding box,如上面右图所示。

使用Faster RCNN实现自下而上的注意力模型

Faster R-CNN可以简单地看做“区域生成网络RPNs + Fast R-CNN”的系统,用区域生成网络代替Fast R-CNN中的Selective Search方法。

这里对FasterRCNN的原理不做过多探究。可以理解为一个黑箱,利用目标检测中的RPN网络,能够高效准确的选出值得关注的候选区域bounding box。

二、Caption Model

1、Top-Down Attention Model

首先将各区域图像特征取平均,同前一language LSTM的输出与先前生成的词编码一起喂给Attention LSTM。

论文解释,这样做的目的是让attention LSTM能最大程度的接受language LSTM、图片的全部内容、与目前产生的caption。

词嵌入不是预先训练好的参数,而是随机初始化的。

之后的注意力模型就比较好理解,与之前SAN等经典注意力模型的思想类似。

vi 是每一区域的图像特征向量。

2、Language LSTM

用注意力模型得到的图像特征向量与Attention LSTM的输出作为Language LSTM的输入。最后全连接加softmax获得该位置输出各词汇的概率。

三、VQA Model

不同之处在于将question的文本序列通过GRU获得的问题特征向量同各个区域的图像特征向量一起输入Top-Down Attention Model,过两层全连接加softmax得到注意力权重。

之后将问题向量的特征与注意力加权后图像特征按元素相乘,加两个全连接和sigmoid,得到预选答案的评分。

值得一提的是,作者在这里用到的激活函数是一种叫做gated hyperbolic tangent activations的东西。据经验,比relu与tanh有更好的效果。

四、注意力模型结果展示

论文中的配图非常的amazing啊

caption任务中每轮输出词之前都会根据目前的attention LSTM与当前的部分caption和language LSTM变换attention区域

vqa任务是根据问题描述与图像特征直接固定某一注意力区域。

其实注意力机制的运用在vision language的这两大任务中的运用基本类似。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>