image caption笔记(零):前言

       image caption的研究沿着三个方向进行:

       1、基于模板的方法

             基于模板的方法预先定义了句子生成的模板,并将句子分成几部分(如主语、动词和宾语)。对于这样的句子片段,许多文章将每个片段与视觉内容对齐,然后生成图像的句子。显然,它们中的大多数都高度依赖于句子的模板,并且总是产生具有句法结构的句子。

       2、基于搜索的方法

              基于搜索的方法通过从句子池中选择语义最相似的句子来为图像“生成”句子。这个方向确实可以实现人工级的描述,因为所有的输出语句都是从现有的人工生成的句子中得到的。但是收集人工生成的句子的需要,使得句子池很难扩大使用。

       3、基于语言的模型

            基于语言的模型旨在学习视觉内容和文本句子的公共空间中的概率分布,以生成具有更灵活的句法结构的新颖句子。 比如《show and tell》,《show attend and tell》等。

        解决的问题有三种:

       1、只考虑生成caption

       2、novel object caption。它使用现有的caption框架在训练所用的数据集额外的图像句子配对数据或未配对图像/文本数据上描述新对象。

       3、增强caption的多样性和精细度。

 

        

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值