论文笔记：SimVQA: Exploring Simulated Environments for Visual Question Answering

weixin_68942305

已于 2023-06-07 13:29:43 修改

阅读量160

点赞数

分类专栏： VQA 深度学习人工智能文章标签：计算机视觉深度学习人工智能

于 2023-06-06 17:38:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_68942305/article/details/131071861

版权

VQA 同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

SimVQA: Exploring Simulated Environments for Visual Question Answering

摘要

现有VQA工作中使用数据增强，实现更好的泛化。但是，会有暴露真实图像中可能存在的敏感或个人数据的风险以及问题和答案的多样性是受限制的等问题。在这项工作中，我们探索使用计算机合成的数据来完全操纵视觉和语言空间，使我们能够提供更多样化的场景。做VQA任务时使用合成的虚拟数据会产生领域偏移，为此我们提出了特征交换（F SWAP），可以有效地改进真实图像上的VQA模型，而不会影响它们回答数据集中现有问题的准确性。

1.简介

我们的贡献可以总结如下：

数据集生成：我们正在使用3DWorld、Hypersim生成虚拟数据，以扩充VQA的数据集。

特征交换（F-SWAP）：我们提出了一种令人惊讶的简单而有效的新技术，用于在我们的训练中结合合成图像，同时减轻领域偏移。我们的方法不依赖于GANs或对抗性损失，这可能很难训练。

实验结果：我们提供了一个经验分析，使用众所周知的技术，如对抗性增强、领域独立融合和最大均值差异匹配，以缓解与我们提出的方法相比的视觉领域差距，并分析技能之间的知识迁移。

2.相关工作

1、视觉问答

2、VQA的数据增强

3、使用模拟环境的合成数据

3.生成合成数据集

1、Hypersim：

第一步：对每一图像中的物体做标注；第二步：对标注的物体生成number、location的（开放式）问答；第三步：对标注的物体的可见性生成是/否的（封闭式）问答。

2、3D World（TDW）：

a：选择一个场景：某物体在什么样的背景下

b：加一个物体：material是什么物体、number有几个物体、color物体的颜色

物体A在B上，B在C的右边

c：基于a、b生成c：问题对

生成QA：问题和答案是根据与预定义场景图及其对应图像相关联的基于模板的语法生成的

4.特征交换

我们使用Faster RCNN或CLIP提取图像特征。然后，我们使用不同的方法来缓解真实图像和合成图像之间的领域差距。方法1和2产生一组对齐的特征，方法3增加VQA模型的输出空间（即，答案的token），将真实类输出token和合成类输出token分离。我们提出的方法（F-SWAP）在域之间交换对象级特征，然后用于训练VQA模型。

在每一个mini-batch中随机提取一个随机数a，若a>0.5则n_feats(n个物体)乘以交换率，然后随机选择一个进行交换。

5.实验

1、数据增强实验

作者提出使用合成数据去增强真实 VQA 数据。第一个设置：测试真实数据和合成数据包含相同问题类型（在本例中为计数问题）的场景。第二个设置：测试真实数据和合成数据包含不同问题类型的场景。

2、领域对齐实验

weixin_68942305

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
2
评论
论文笔记：SimVQA: Exploring Simulated Environments for Visual Question Answering

然后，我们使用不同的方法来缓解真实图像和合成图像之间的领域差距。方法1和2产生一组对齐的特征，方法3增加VQA模型的输出空间（即，答案的token），将真实类输出token和合成类输出token分离。特征交换（F-SWAP）：我们提出了一种令人惊讶的简单而有效的新技术，用于在我们的训练中结合合成图像，同时减轻领域偏移。实验结果：我们提供了一个经验分析，使用众所周知的技术，如对抗性增强、领域独立融合和最大均值差异匹配，以缓解与我们提出的方法相比的视觉领域差距，并分析技能之间的知识迁移。2、VQA的数据增强。
复制链接

扫一扫

专栏目录

weixin_68942305 CSDN认证博客专家 CSDN认证企业博客

码龄2年

1: 原创

168万+: 周排名

45万+: 总排名

160: 访问

: 等级

10: 积分

1: 粉丝

0: 获赞

2: 评论

0: 收藏

私信

关注

热门文章

论文笔记：SimVQA: Exploring Simulated Environments for Visual Question Answering 160

分类专栏

VQA 1篇
深度学习 1篇
人工智能 1篇

最新评论

论文笔记：SimVQA: Exploring Simulated Environments for Visual Question Answering
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
论文笔记：SimVQA: Exploring Simulated Environments for Visual Question Answering
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天最佳新人】榜单，全部的排名请看 https://bbs.csdn.net/topics/615782061。

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。