Oscar：面向视觉语言任务的对象语义对齐预训练模型

最新推荐文章于 2025-03-07 20:35:00 发布

Civisky

最新推荐文章于 2025-03-07 20:35:00 发布

阅读量757

点赞数 1

文章标签：深度学习计算机视觉 pytorch

在视觉语言任务中，学习“图像-文本对”跨模态表示的大规模预训练方法越来越流行。而现有方法只是简单地将图像区域特征和文本特征串联起来输入模型进行预训练，并简单粗暴地利用self-attention来学习图像-文本的语义对齐。作者观察到，图像中的显著对象能被准确检测出来，并且在配对的文本中经常被提及。因此，作者提出了一种新的学习方法Oscar，它用图像中检测到的对象标签作为锚点，大大简化了对齐学习。作者在一个有650万个图像-文本对的公共语料库上对Oscar模型进行了预训练，并在下游任务上对其进行了微调。Oscar在6项视觉语言理解和生成任务上创造了最先进的成绩。

如图1所示，Oscar模型在一个有650万个图像-文本对的公共语料库上进行了预训练，并在5个理解任务和2个生成任务上进行了微调。

图2给出了Oscar通过字典查找将图像-文本对表示为语义空间的过程。（a）图像-文本对示例。（b）以对象标签为锚点，对齐图像区域和预训练语言模型的词嵌入。

如图3所示，Oscar将词符、对象标签、区域特征作为输入，其中对象标签用于对齐跨模态语义，这与现有的视觉语言预训练（Vision-Language Pre-training，VLP）模型有所不同。

如表1所示，蓝色表示最好的结果，灰色背景表示Oscar生成的结果。Oscar在大多数任务上都优于以前的模型，并且有很大的优势，部分原因是，Oscar使用对象标签作为锚点，大大简化了图像-文本语义对齐的学习。需要注意的是，Oscar是在650万个图像-文本对上预训练的，这比UNITER的960万和LXMERT的918万都要少。表2给出了每项任务的详细比较。

图4：使用t-SNE降维技术的2D可视化。

如图4所示，作者使用t-SNE降维技术对模型基于COCO测试集学习到的语义特征空间进行了二维可视化，并比较了有和没有对象标签的预训练模型，得到一些有趣的发现：

借助于对象标签，同一对象在两个模态之间的距离大大缩短。例如，Oscar中“人”的文本和图像特征之间的距离比基线方法中的更接近。
添加对象标签后，Oscar中相关语义的对象越来越接近（但仍然可以区分），而基线方法中有一些混合，例如动物（人、斑马、羊、鸟），家具（椅子、沙发、长凳），交通工具（公共汽车、火车、卡车、摩托车、汽车）。这验证了对象标签在对齐学习中的重要性。