VQA的应用（调研）

最新推荐文章于 2024-02-04 19:58:13 发布

Gao+Ling

最新推荐文章于 2024-02-04 19:58:13 发布

阅读量948

点赞数 1

文章标签：人工智能深度学习其他经验分享

本文链接：https://blog.csdn.net/weixin_44845357/article/details/126749314

版权

链接：https://blog.csdn.net/z704630835/article/details/114689816

1. 医疗VQA（Medical VQA）
VQA能够帮助诊断，给出医疗建议。目前这项工作最早是2018年的：Medical Domain Visual Question Answering pilot task, as described in Hasan et al. (2018)。其公开的med-VQA数据集包括2866张图片和6413个Q&A。之后是ImageCLEF 2019 edition (Abacha et al. (2019))数据集，4200张放射图和15992个QA。近期又有两个数据集VQA-RAD presented in Lau et al. (2018), and PathVQA described in He et al. (2020)，他们提高了VQA训练和测试样本的多样性。

目前做医疗VQA的方法，大多是在多模态合成和数据集增广上做改进，一些经典的网络包括Cross Facts Network，ETM-Trans，还有一些用到协同注意力的模型等

2. 视觉受损人群的VQA（VQA for visually impaired people）
对于具有视觉障碍的人，VQA的问题应该主要是关注于日常的。从这个角度出发，目前也有相关的数据集公开，比如Gurari et al. (2018)公开了数据集包含31000个盲人提的问题；Bigham et al. (2010b)还做了一个叫VizWiz的iphone的app，能够快速响应用户的问题。

方法方面，Anderson et al. (2018)用了BuTd；Weiss et al. (2019)使用了强化学习来对盲人进行街景导航。

3. 视觉监管场景中的VQA（VQA in Video Surveillance scenarios）
VQA在视频监管场景中的应用可以更好的帮助操作者来理解场景，并快速做出准确的决策。Li et al., 2019提出了一个ISEE平台来解析视频监管数据，该平台包含三个模块，检测追踪模块，属性识别模块，再识别模块。Toor et al. (2019a)提出了C2VQA-BOARS。

4. 教育和文化遗产中的VQA（VQA Education and cultural heritage）
VQA与人类感受是高度相关的。He et al. (2017)设计了一个教育机器人，它使用VQA来规范化问题，并且能够进行教育对话。Bongini et al. (2020)提出用VQA在博物馆和艺术展览中进行音频交互；(Stefanini et al., 2019)提出了一个文化数据集Artpedia。

5. 广告VQA（VQA and Advertising）
广告和图像理解是密切相关的。Hussain et al. (2017)提出了两个广告数据集，一个是图像，另一个是视频，图像包含64832张广告，总计有202090个Q&A。Park et al. (2019)则关注于预测用户的偏好，以及什么能够使得用户印象深刻，因此建立Real-ad数据集，其包含3747张图片，并有超过了5亿个印象。最后还有利用VQA来做广告设计的，Zhou et al. (2020)提出了一种能够提取文本和图像相关信息的方法，并生成一个新的广告，他使用的是跨模态编码器（cross-modality encoder architecture）。

6. 未来的挑战（Emerging challenges/Misc）
这里作者提到了一些点。比如对360°的全景影像设计VQA；比如多源VQA数据的融合；比如long-video QA is unexplored；扩展听觉感知和问答；以及模型自助对错误回答的问题进行编辑；利用外部知识来回答未知问题；VQG问题等。

Gao+Ling

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
VQA的应用（调研）

近期又有两个数据集VQA-RAD presented in Lau et al. (2018), and PathVQA described in He et al. (2020)，他们提高了VQA训练和测试样本的多样性。广告和图像理解是密切相关的。最后还有利用VQA来做广告设计的，Zhou et al. (2020)提出了一种能够提取文本和图像相关信息的方法，并生成一个新的广告，他使用的是跨模态编码器（cross-modality encoder architecture）。比如多源VQA数据的融合；
复制链接

扫一扫