2021-07-30

最新推荐文章于 2022-11-05 21:39:47 发布

Jennifer

最新推荐文章于 2022-11-05 21:39:47 发布

阅读量274

点赞数 2

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_44928039/article/details/119245947

版权

Image Caption知识整理

论文：nocaps: novel object captioning at scale
Nocaps：400 novel objects
这部分在笔记本上
论文：VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning（CVPR,2021.3.4）
两阶段：
预训练阶段：模型学习用标签去打标图像区域用图像-标签对作为训练数据
在这里插入图片描述
微调阶段：给检测到的图像描述对及其相应的对象标签，模型学习将图像映射到句子，该句子里的目标是检测到的目标。这些句子是从图像-标题对中学习的，目标也许是在图像-标题对中没有的目标
在微调过程中对模型的输入是三元组：图像区域特征V、一组标签T和一个文本描述C，其中V和T以与预训练中描述的相同的方式构造，而C是一系列词/符号。在微调过程中，我们随机屏蔽了文本描述句子中的一些标记进行预测，并使用交叉熵损失优化模型参数
在这里插入图片描述
推理阶段：
在推理过程中，首先提取图像区域特征，并从给定的图像中检测标签。然后应用该模型生成一个序列，一次生成一个词/字符，直到它输出句子标记的末尾或达到最大长度。在每一步中，模型都是自动回归的，在生成下一步时使用之前生成的词/字符作为附加输入。
在推理时，模型能够识别物体（如“人”、“手风琴”），并用新的方式组成熟悉的组成部分，形成标题“手持手风琴的人”
模型结构：
用多个Transformer层去将输入编码为一个特征向量，有softmax的线性层去生成图像中视觉对象的文本描述。
在这里插入图片描述
Input :图像区域特征V 和tag tokens（标签词）T
实验：用Open Images V5挑战训练集，该训练集中有170万张图像作为VIVO的预训练。从边界框标签中挑选500类，从人为确定的图像级标签中挑选6400类，联合图像-标签对，总共包含6.4K个唯一的类，用于VIVO预训练。在微调阶段，训练数据是118000张图像的COCO训练集，每个图像都有5个文本描述。我们在节点盖的验证和测试集上评估我们的模型，其中分别包括来自开放图像验证和测试集的4.5K和10.6K图像。
使用来自 (Anderson et al. 2018) 的updown目标检测器去提取图像区域特征。它们与缩放边界框连接形成2054维向量(视觉特征为2048维，6维是边界框编码信息，包栝边界框左上，右下坐标以及边界框的高度和宽度)。Transformer用BERT-base(Devlin et al. 2018)初始化
结果：
In domain 就是物体在训练集当中已经出现过，即经典的 image captioning 问题。
Near-domain 是指图像中最显著的物体是 novel object，即没有在训练集中出现过，而其他物体则有可能在训练数据中被描述过。
Out-of-domain 图像中的所有物体都没有在训练集当中出现过。
在这里插入图片描述
F1-scores (in %)

论文：Learning to Select: A Fully Attentive Approach for Novel Object Captioning(ICMR2021.6)

Geometric Features是图像区域的中心坐标、宽度、高度、区域面积
Confidence Scores是目标的置信度得分
在这里插入图片描述
然后，获得的特征向量集展为序列输入给一系列类似Transformer的层，每个层由一个Inner-Attention和一个Self-Attention组成。内注意算符被设计为连接属于同一类的区域，而自注意算符在输入元素之间提供了完整的连通性。这两个运算符的组合允许区域选择器独立地关注特定的目标集群，以便交换语义相关的信息和学习类内的依赖关系，然后，建模长期和不同的依赖关系。
在一系列内部和自我注意层之后，每对操作符后面是位置前馈网络，区域选择器为每个对象方案输出选择分数。为此，对最后一层的输出应用仿射变换和非线性激活
论文：Leveraging Human Attention in Novel Object Captioning
有代码https://github.com/chenxy99/ANOC
在这里插入图片描述

Jennifer

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-07-30

Image Caption知识整理论文：nocaps: novel object captioning at scaleNocaps：400 novel objects这部分在笔记本上论文：VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning（CVPR,2021.3.4）两阶段：预训练阶段：模型学习用标签去打标图像区域用图像-标签对作为训练数据微调阶段：给检测到的图像描述对及其相应的对象标签，模型学习将图像映射到句子
复制链接

扫一扫