image caption笔记(五):《Knowing When to Look: Adaptive Attention》

本质上仍然是对attention机制的改进。在每一个时刻,模型决定更依赖图像视觉信息或者语言模型。

一、模型结构:

(1)对原本的attention机制做改进

 

原本的attention机制:

是第i个位置的图像特征,是softmax归一化之后的t时刻的权重

详细看博客《image caption笔记(三):show,attend and tell》

原本的attention机制每一个时刻的上下文变量由图像特征和得到,然后生成 当前时刻的、前一个时刻的输出(当前时刻的输入)结生成下一个单词的 概率。

 

 

做出的改动为

先生成由图像特征和得到。其余不变。

也就是上下文变量由根据前一个时刻的隐藏态生成  变为根据当前时刻的隐藏态生成。

 

 

(2)在上面的attention机制上,加入adaptive机制。

attention机制中   表达了在某一个时刻,对图像不同位置的关注度。

那么我们现在还需要一个东西,来表达这个时刻对语言模型前面信息的关注度。我们知道是细胞状态,贯穿整个lstm,包含了语言模型t时刻之前的信息。

建立一个哨兵机制(我更愿意称呼它为哨兵门,因为定义和  LSTM中门的 定义很像)

                                          

 

 

每一个时刻共同产生预测结果

二、总结

仍然是对attention的改进,每一个时刻对图像特征和语言模型 确定一下偏向性。

 

(1)改进attention机制

(2)设计了哨兵门

利用控制对二者的关注程度

(3)为了确定,重新设计了计算图像特征权重的softmax分类器。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值