2021-07-30

Image Caption知识整理

论文:nocaps: novel object captioning at scale
Nocaps:400 novel objects
这部分在笔记本上
论文:VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning(CVPR,2021.3.4)
两阶段:
预训练阶段:模型学习用标签去打标图像区域用图像-标签对作为训练数据
在这里插入图片描述
微调阶段:给检测到的图像描述对及其相应的对象标签,模型学习将图像映射到句子,该句子里的目标是检测到的目标。这些句子是从图像-标题对中学习的,目标也许是在图像-标题对中没有的目标
在微调过程中对模型的输入是三元组:图像区域特征V、一组标签T和一个文本描述C,其中V和T以与预训练中描述的相同的方式构造,而C是一系列词/符号。在微调过程中,我们随机屏蔽了文本描述句子中的一些标记进行预测,并使用交叉熵损失优化模型参数
在这里插入图片描述
推理阶段:
在推理过程中,首先提取图像区域特征,并从给定的图像中检测标签。然后应用该模型生成一个序列,一次生成一个词/字符,直到它输出句子标记的末尾或达到最大长度。在每一步中,模型都是自动回归的,在生成下一步时使用之前生成的词/字符作为附加输入。
在推理时,模型能够识别物体(如“人”、“手风琴”),并用新的方式组成熟悉的组成部分,形成标题“手持手风琴的人”
模型结构:
用多个Transformer层去将输入编码为一个特征向量,有softmax的线性层去生成图像中视觉对象的文本描述。
在这里插入图片描述
Input :图像区域特征V 和tag tokens(标签词)T
实验:用Open Images V5挑战训练集,该训练集中有170万张图像作为VIVO的预训练。从边界框标签中挑选500类,从人为确定的图像级标签中挑选6400类,联合图像-标签对,总共包含6.4K个唯一的类,用于VIVO预训练。在微调阶段,训练数据是118000张图像的COCO训练集,每个图像都有5个文本描述。我们在节点盖的验证和测试集上评估我们的模型,其中分别包括来自开放图像验证和测试集的4.5K和10.6K图像。
使用来自 (Anderson et al. 2018) 的updown目标检测器去提取图像区域特征。它们与缩放边界框连接形成2054维向量(视觉特征为2048维,6维是边界框编码信息,包栝边界框左上,右下坐标以及边界框的高度和宽度)。Transformer用BERT-base(Devlin et al. 2018)初始化
结果:
In domain 就是物体在训练集当中已经出现过,即经典的 image captioning 问题。
Near-domain 是指图像中最显著的物体是 novel object,即没有在训练集中出现过,而其他物体则有可能在训练数据中被描述过。
Out-of-domain 图像中的所有物体都没有在训练集当中出现过。
在这里插入图片描述
F1-scores (in %)
在这里插入图片描述
论文:Learning to Select: A Fully Attentive Approach for Novel Object Captioning(ICMR2021.6)
在这里插入图片描述
在这里插入图片描述

Geometric Features是图像区域的中心坐标、宽度、高度、区域面积
Confidence Scores是目标的置信度得分
在这里插入图片描述
然后,获得的特征向量集展为序列输入给一系列类似Transformer的层,每个层由一个Inner-Attention和一个Self-Attention组成。内注意算符被设计为连接属于同一类的区域,而自注意算符在输入元素之间提供了完整的连通性。这两个运算符的组合允许区域选择器独立地关注特定的目标集群,以便交换语义相关的信息和学习类内的依赖关系,然后,建模长期和不同的依赖关系。
在一系列内部和自我注意层之后,每对操作符后面是位置前馈网络,区域选择器为每个对象方案输出选择分数。为此,对最后一层的输出应用仿射变换和非线性激活
论文:Leveraging Human Attention in Novel Object Captioning
有代码https://github.com/chenxy99/ANOC
在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值