SimVQA: Exploring Simulated Environments for Visual Question Answering
摘要
现有VQA工作中使用数据增强,实现更好的泛化。但是,会有暴露真实图像中可能存在的敏感或个人数据的风险以及问题和答案的多样性是受限制的等问题。在这项工作中,我们探索使用计算机合成的数据来完全操纵视觉和语言空间,使我们能够提供更多样化的场景。做VQA任务时使用合成的虚拟数据会产生领域偏移,为此我们提出了特征交换(F SWAP),可以有效地改进真实图像上的VQA模型,而不会影响它们回答数据集中现有问题的准确性。
1.简介
我们的贡献可以总结如下:
数据集生成:我们正在使用3DWorld、Hypersim生成虚拟数据,以扩充VQA的数据集。
特征交换(F-SWAP):我们提出了一种令人惊讶的简单而有效的新技术,用于在我们的训练中结合合成图像,同时减轻领域偏移。我们的方法不依赖于GANs或对抗性损失,这可能很难训练。
实验结果:我们提供了一个经验分析,使用众所周知的技术,如对抗性增强、领域独立融合和最大均值差异匹配,以缓解与我们提出的方法相比的视觉领域差距,并分析技能之间的知识迁移。
2.相关工作
1、视觉问答
2、VQA的数据增强
3、使用模拟环境的合成数据
3.生成合成数据集
1、Hypersim:
第一步:对每一图像中的物体做标注; 第二步:对标注的物体生成number、location的(开放式)问答; 第三步:对标注的物体的可见性生成是/否的(封闭式)问答。
2、3D World(TDW):
a:选择一个场景:某物体在什么样的背景下
b:加一个物体:material是什么物体、number有几个物体、color物体的颜色
物体A在B上,B在C的右边
c:基于a、b生成c:问题对
生成QA:问题和答案是根据与预定义场景图及其对应图像相关联的基于模板的语法生成的
4.特征交换
我们使用Faster RCNN或CLIP提取图像特征。然后,我们使用不同的方法来缓解真实图像和合成图像之间的领域差距。方法1和2产生一组对齐的特征,方法3增加VQA模型的输出空间(即,答案的token),将真实类输出token和合成类输出token分离。我们提出的方法(F-SWAP)在域之间交换对象级特征,然后用于训练VQA模型。
在每一个mini-batch中随机提取一个随机数a,若a>0.5则n_feats(n个物体)乘以交换率,然后随机选择一个进行交换。
5.实验
1、数据增强实验
作者提出使用合成数据去增强真实 VQA 数据。 第一个设置:测试真实数据和合成数据包含相同问题类型(在本例中为计数问题)的场景。 第二个设置:测试真实数据和合成数据包含不同问题类型的场景。
2、领域对齐实验