image caption笔记（零）：前言

最新推荐文章于 2023-05-14 14:29:35 发布

月半rai

最新推荐文章于 2023-05-14 14:29:35 发布

阅读量403

点赞数

分类专栏： image caption

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zlrai5895/article/details/84783901

版权

image caption 专栏收录该内容

20 篇文章 6 订阅

订阅专栏

image caption的研究沿着三个方向进行：

1、基于模板的方法

基于模板的方法预先定义了句子生成的模板，并将句子分成几部分(如主语、动词和宾语)。对于这样的句子片段，许多文章将每个片段与视觉内容对齐，然后生成图像的句子。显然，它们中的大多数都高度依赖于句子的模板，并且总是产生具有句法结构的句子。

2、基于搜索的方法

基于搜索的方法通过从句子池中选择语义最相似的句子来为图像“生成”句子。这个方向确实可以实现人工级的描述，因为所有的输出语句都是从现有的人工生成的句子中得到的。但是收集人工生成的句子的需要，使得句子池很难扩大使用。

3、基于语言的模型

基于语言的模型旨在学习视觉内容和文本句子的公共空间中的概率分布，以生成具有更灵活的句法结构的新颖句子。比如《show and tell》，《show attend and tell》等。

解决的问题有三种：

1、只考虑生成caption

2、novel object caption。它使用现有的caption框架在训练所用的数据集额外的图像句子配对数据或未配对图像/文本数据上描述新对象。

3、增强caption的多样性和精细度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。