关于VQA一种科研方向的小结及想法

最新推荐文章于 2024-12-19 13:17:59 发布

全部梭哈迟早暴富

最新推荐文章于 2024-12-19 13:17:59 发布

阅读量2.1k

点赞数 7

分类专栏：视觉问答(VQA)相关我的人生经验

本文链接：https://blog.csdn.net/z704630835/article/details/103611628

版权

视觉问答(VQA)相关同时被 2 个专栏收录

27 篇文章

订阅专栏

我的人生经验

5 篇文章

订阅专栏

一、背景

从7月份进入课题组，开始了新的研究方向，即视觉问答VQA，前两个月毫无头绪，在补文本处理方面的知识。到8月底逐渐走到VQA这条路上。自己之前也没有做过文本方面的处理，所以开始上手VQA也是磕磕绊绊，经过半年的阅读文献积累，逐渐看清了一点VQA的趋势。便想把自己的一些想法写下来。

二、小结

这里我选择了近两年的5篇三大顶会的文献，除了一篇文章是2018年的，其他4篇全部是2019年的，这5篇文章如下：

M. Shah, X. Chen, M. Rohrbach, D. Parikh. "Cycle-Consistency for Robust Visual Question Answering." In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019

A. F. Biten, R. Tito, A. Mafla, L. Gomez, M. Rusinol, E. Valveny, C.V. Jawahar, D. Karatzas. “ Scene Text Visual Question Answering." International Conference on Computer Vision (ICCV), 2019

Q. Li, Q. Tao, S. Joty, J. Cai, J. Luo. "VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions." European Conference on Computer Vision (ECCV), 2018

N. Bhattacharya, Q. Li, D. Gurari. “Why Does a Visual Question Have Different Answers?” International Conference on Computer Vision (ICCV), 2019

K. Marino, M. Rastegari, A. Farhadi, R. Mottaghi. “OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge.” In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019

其中的作者Qing Li出现了两次，不过很可惜，没有找到这个作者的信息。之前自己也有对这5篇文章进行过解读，具体文章解读如下：

【文献阅读】具有循环一致性的鲁棒VQA与数据集VQA-Rephrasings（M. Shah等人，CVPR，2019）

【文献阅读】ST-VQA——利用图像中的场景文本进行视觉问答（A. F. Biten等人，ICCV，2019）

【文献阅读】VQA-E——一种对预测答案解释的模型和数据集（Q. Li等人，ECCV，2018）

【文献阅读】为何视觉问题有多个答案（N. Bhattacharya等人，ICCV，2019，有代码）

【文献阅读】基于外部知识的数据集制作与模型OK-VQA（K. Marino等人，CVPR，2019）

这5篇文章都有很强的相似性，所有文章的行文思路非常类似，都是提出场景——制作数据集——改善模型——模型比较。

因为VQA 2.0数据集其实非常全面，那么这里在做数据集的时候，必须假设一种VQA 2.0没有考虑到的场景，比如需要涉及外部知识（OK-VQA）；比如相似问题应该有相同的答案（VQA-Rephrasings）；比如图像中的场景文本能够提供非常重要的信息（ST-VQA）。由此而制作自己需要解决问题的数据集。当然做好数据集之后还必须要有对数据集的分析部分。这部分工作量其实都挺大的：