image caption的研究沿着三个方向进行:
1、基于模板的方法
基于模板的方法预先定义了句子生成的模板,并将句子分成几部分(如主语、动词和宾语)。对于这样的句子片段,许多文章将每个片段与视觉内容对齐,然后生成图像的句子。显然,它们中的大多数都高度依赖于句子的模板,并且总是产生具有句法结构的句子。
2、基于搜索的方法
基于搜索的方法通过从句子池中选择语义最相似的句子来为图像“生成”句子。这个方向确实可以实现人工级的描述,因为所有的输出语句都是从现有的人工生成的句子中得到的。但是收集人工生成的句子的需要,使得句子池很难扩大使用。
3、基于语言的模型
基于语言的模型旨在学习视觉内容和文本句子的公共空间中的概率分布,以生成具有更灵活的句法结构的新颖句子。 比如《show and tell》,《show attend and tell》等。
解决的问题有三种:
1、只考虑生成caption
2、novel object caption。它使用现有的caption框架在训练所用的数据集额外的图像句子配对数据或未配对图像/文本数据上描述新对象。
3、增强caption的多样性和精细度。