阅读小结：A Comprehensive Study of Deep Learning for Image Captioning

最新推荐文章于 2023-10-15 21:48:19 发布

戈阿四

最新推荐文章于 2023-10-15 21:48:19 发布

阅读量1.8k

点赞数 1

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhouheng2018/article/details/83315784

版权

论文阅读专栏收录该内容

3 篇文章 0 订阅

订阅专栏

阅读小结：A Comprehensive Study of Deep Learning for Image Captioning

What

作者： O. Vinyals, A. Toshev, S. Bengio and D. Erhan

题目：A Comprehensive Study of Deep Learning for Image Captioning

出处：arXiv:1810.04020v2 [cs.CV] 14 Oct 2018

What

这是Image Captioning 领域的最新review，感觉非常好。

首先，做Cap的大概分三个类别：

Temple-based Image Cap
Retrieval-based Image Cap
Novel image caption generation

而，DL-based是第三类 Novel Image Caption Generation的一种。基于深度学习的Cap是目前做的最多的一个方向，像我这样的渣渣跟大佬后面慢慢学、慢慢做吧。

基于深度学习的Cap方法总结：看看作者的总结图。论文的主体也是分6个部分详细介绍。
在这里插入图片描述

1. Visual Space vs. Multimodal Space
在这里插入图片描述

Bulk of Cap methods 使用的都是 visual space 生成cap。下面2-5都是基于视觉空间生成Cap的。

而 Multimodal Space 多了Language Encoder来提取单词的特征。典型的 多模态空间 结构有四个部分：

a Language Encoder part：提取单词特征并学习每个单词的特征嵌入；
a vision part，即Image Encoder部分：使用深度CNN提取图像的特征；
a multimodal space part：将图像特征映射到（map-into）具有单词特征的公共空间；
a language decoder part：通过解码map生成Cap。

2. Supervised Learning vs. Other Deep Learning
在这里插入图片描述

3. Dense Captioning vs. Captions for the whole scene
在这里插入图片描述

说完基于多模态的Cap和dense Cap，下面的都是基于视觉空间、使用监督学和整个区域生成Cap

4. Encoder-Decoder Architecture vs. Compositional Architecture
在这里插入图片描述

在这里插入图片描述
5. Others（attention-based）

基于Attention的方法和其他方法的不同点是，attention-based可以注意到图片中的显著部分，同时生成相应的单词。

5. Others（Semantic Concept-Based Image）
在这里插入图片描述
5. Others（Semantic Concept-Based Image）

5. Other（Stylized Caption）
上面的的方法都是基于图片内容生产Cap，是一种力求Cap符合图片内容的客观描述，而这个方法考虑生产一直风格化的Cap，比如上次幽默、搞笑等等。
在这里插入图片描述

这篇综述后面还有内容，放在以后再写。

end

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。