image caption笔记（四）：《Image Captioning with Semantic Attention》

最新推荐文章于 2023-08-26 14:01:56 发布

月半rai

最新推荐文章于 2023-08-26 14:01:56 发布

阅读量974

点赞数

分类专栏： image caption

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zlrai5895/article/details/84669031

版权

image caption 专栏收录该内容

20 篇文章 6 订阅

订阅专栏

文章来自cvpr2016

image caption常见的方法包括top-down和bottom-up。Top-down直接做图像到文本的端到端学习，而bottom-up先抽取出一些关键词，再把关键词组合成一句话。Top-down比较难处理一些图像的细节，因为它将整张图片作为输入。而bottom-up不容易做端到端的学习，将抽取的特征组成一句话也很困难。因此文章在端到端模型中引入了attention机制，结合了两种方法的优势。

与《show,attend and tell》相比，同样是引入了注意力机制，不同点在于：

在《show,attend and tell》中，注意力是以固定的分辨率在空间上建模的。在每次重复迭代时，该算法计算一组与预定义的空间位置相对应的注意权值。相反，本文可以在图像中任何分辨率的任何地方使用概念。事实上，本文甚至可以使用在图像中没有直接视觉存在的概念。

在RNN的输入、输出均引入了注意力机制。

关于属性的选取，共有两种方法。第一种没看懂，第二种就是在caption中挑取频率高的单词作为属性。

也是只在起始时刻输入图像特征。后续不再使用。

关键在于输入和输出时刻的两个注意力模型。

先说输入时刻的注意力模型

首先是根据前一个单词与不同属性的相关性分配权重（都是从词汇库中得出的所以都用y表示）用E降一下维度

本文使用双线性函数表述模型相关性：

然后组合属性和前一时刻的输出得到当前时刻的输入

输出的注意力机制与此类似，先计算权重

然后根据当前时刻的隐藏态和组合属性计算输出的softmax概率值

最后是损失函数，包括三部分，后两部分是对权重的限制。第一部分就是希望预测的vocab大小的softmax概率向量中，gt位置的概率尽可能的接近1.

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
image caption笔记（四）：《Image Captioning with Semantic Attention》

文章来自cvpr2016 image caption常见的方法包括top-down和bottom-up。Top-down直接做图像到文本的端到端学习，而bottom-up先抽取出一些关键词，再把关键词组合成一句话。Top-down比较难处理一些图像的细节，因为它将整张图片作为输入。而bottom-up不容易做端到端的学习，将抽取的特征组成一句话也很困难。因此文章在端到端...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。