一、模型结构
对LSTM部分做出的改动,其余与NIC相同。
与原本的lstm公式相比 多了一个,
就是attention应 用的结果。
首先 我们给不同位置的特征设置权重 权重的值和为1 这很自然就会想到使用softmax
在每个时刻t,我们都要设置不同位置的权重。在每个时刻,根据前一刻的状态确定当前的权重,权重不同,代表对不同位置的关注度不同。
是第i个位置的图像特征,
是softmax归一化之后的t时刻的权重
是一个多层感知器,也就是简单的全连接网络。得到权重以后,
这里的有两种 hard attention 和soft attention ,因为soft简单,只介绍soft。
在得到当前时刻的后,产生概率预测。
是前一个时刻的输出,也就是当前时刻的输入。
二、总结
就是在每个时刻的输入图像特征 加了权重 对不同位置的特征 加了不同的关注度。