本质上仍然是对attention机制的改进。在每一个时刻,模型决定更依赖图像视觉信息或者语言模型。
一、模型结构:
(1)对原本的attention机制做改进
原本的attention机制:
是第i个位置的图像特征,
是softmax归一化之后的t时刻的权重
详细看博客《image caption笔记(三):show,attend and tell》
原本的attention机制每一个时刻的上下文变量由图像特征和
得到,然后生成 当前时刻的
。
与
、前一个时刻的输出(当前时刻的输入)结生成下一个单词的 概率。
做出的改动为:
先生成由图像特征和
得到。其余不变。
也就是上下文变量由根据前一个时刻的隐藏态生成 变为根据当前时刻的隐藏态生成。
(2)在上面的attention机制上,加入adaptive机制。
attention机制中 表达了在某一个时刻,对图像不同位置的关注度。
那么我们现在还需要一个东西,来表达这个时刻对语言模型前面信息的关注度。我们知道是细胞状态,贯穿整个lstm,包含了语言模型t时刻之前的信息。
建立一个哨兵机制(我更愿意称呼它为哨兵门,因为定义和 LSTM中门的 定义很像)
每一个时刻和
共同产生预测结果
二、总结
仍然是对attention的改进,每一个时刻对图像特征和语言模型 确定一下偏向性。
(1)改进attention机制
(2)设计了哨兵门
利用控制对二者的关注程度
(3)为了确定,重新设计了计算图像特征权重的softmax分类器。