VQA的应用(调研)

链接:https://blog.csdn.net/z704630835/article/details/114689816

1. 医疗VQA(Medical VQA)
VQA能够帮助诊断,给出医疗建议。目前这项工作最早是2018年的:Medical Domain Visual Question Answering pilot task, as described in Hasan et al. (2018)。其公开的med-VQA数据集包括2866张图片和6413个Q&A。之后是ImageCLEF 2019 edition (Abacha et al. (2019))数据集,4200张放射图和15992个QA。近期又有两个数据集VQA-RAD presented in Lau et al. (2018), and PathVQA described in He et al. (2020),他们提高了VQA训练和测试样本的多样性。

目前做医疗VQA的方法,大多是在多模态合成和数据集增广上做改进,一些经典的网络包括Cross Facts Network,ETM-Trans,还有一些用到协同注意力的模型等

2. 视觉受损人群的VQA(VQA for visually impaired people)
对于具有视觉障碍的人,VQA的问题应该主要是关注于日常的。从这个角度出发,目前也有相关的数据集公开 ,比如Gurari et al. (2018)公开了数据集包含31000个盲人提的问题;Bigham et al. (2010b)还做了一个叫VizWiz的iphone的app,能够快速响应用户的问题。

方法方面,Anderson et al. (2018)用了BuTd;Weiss et al. (2019)使用了强化学习来对盲人进行街景导航。

3. 视觉监管场景中的VQA(VQA in Video Surveillance scenarios)
VQA在视频监管场景中的应用可以更好的帮助操作者来理解场景,并快速做出准确的决策。Li et al., 2019提出了一个ISEE平台来解析视频监管数据,该平台包含三个模块,检测追踪模块,属性识别模块,再识别模块。Toor et al. (2019a)提出了C2VQA-BOARS。

4. 教育和文化遗产中的VQA(VQA Education and cultural heritage)
VQA与人类感受是高度相关的。He et al. (2017)设计了一个教育机器人,它使用VQA来规范化问题,并且能够进行教育对话。Bongini et al. (2020)提出用VQA在博物馆和艺术展览中进行音频交互;(Stefanini et al., 2019)提出了一个文化数据集Artpedia。

5. 广告VQA(VQA and Advertising)
广告和图像理解是密切相关的。Hussain et al. (2017)提出了两个广告数据集,一个是图像,另一个是视频,图像包含64832张广告,总计有202090个Q&A。Park et al. (2019)则关注于预测用户的偏好,以及什么能够使得用户印象深刻,因此建立Real-ad数据集,其包含3747张图片,并有超过了5亿个印象。最后还有利用VQA来做广告设计的,Zhou et al. (2020)提出了一种能够提取文本和图像相关信息的方法,并生成一个新的广告,他使用的是跨模态编码器(cross-modality encoder architecture)。

6. 未来的挑战(Emerging challenges/Misc)
这里作者提到了一些点。比如对360°的全景影像设计VQA;比如多源VQA数据的融合;比如long-video QA is unexplored;扩展听觉感知和问答;以及模型自助对错误回答的问题进行编辑;利用外部知识来回答未知问题;VQG问题等。

  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值