image caption笔记（五）：《Knowing When to Look: Adaptive Attention》

最新推荐文章于 2024-05-30 18:46:04 发布

月半rai

最新推荐文章于 2024-05-30 18:46:04 发布

阅读量944

点赞数

分类专栏： image caption

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zlrai5895/article/details/82822652

版权

image caption 专栏收录该内容

20 篇文章 6 订阅

订阅专栏

本质上仍然是对attention机制的改进。在每一个时刻，模型决定更依赖图像视觉信息或者语言模型。

一、模型结构：

（1）对原本的attention机制做改进

原本的attention机制：

是第i个位置的图像特征，是softmax归一化之后的t时刻的权重

详细看博客《image caption笔记（三）：show,attend and tell》

原本的attention机制每一个时刻的上下文变量由图像特征和得到，然后生成当前时刻的。与、前一个时刻的输出（当前时刻的输入）结生成下一个单词的概率。

做出的改动为：

先生成由图像特征和得到。其余不变。

也就是上下文变量由根据前一个时刻的隐藏态生成变为根据当前时刻的隐藏态生成。

（2）在上面的attention机制上，加入adaptive机制。

attention机制中表达了在某一个时刻，对图像不同位置的关注度。

那么我们现在还需要一个东西，来表达这个时刻对语言模型前面信息的关注度。我们知道是细胞状态，贯穿整个lstm,包含了语言模型t时刻之前的信息。

建立一个哨兵机制（我更愿意称呼它为哨兵门，因为定义和 LSTM中门的定义很像）

每一个时刻和共同产生预测结果

二、总结

仍然是对attention的改进，每一个时刻对图像特征和语言模型确定一下偏向性。

（1）改进attention机制

（2）设计了哨兵门

利用控制对二者的关注程度

（3）为了确定，重新设计了计算图像特征权重的softmax分类器。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
image caption笔记（五）：《Knowing When to Look: Adaptive Attention》

本质上仍然是对attention机制的改进。在每一个时刻，模型决定更依赖图像视觉信息或者语言模型。一、模型结构：（1）对原本的attention机制做改进原本的attention机制：是第i个位置的图像特征，是softmax归一化之后的t时刻的权重详细看博客《image caption笔记（三）：show,attend and tell》原本的attent...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。