关于VQA一种科研方向的小结及想法

一、背景

从7月份进入课题组,开始了新的研究方向,即视觉问答VQA,前两个月毫无头绪,在补文本处理方面的知识。到8月底逐渐走到VQA这条路上。自己之前也没有做过文本方面的处理,所以开始上手VQA也是磕磕绊绊,经过半年的阅读文献积累,逐渐看清了一点VQA的趋势。便想把自己的一些想法写下来。

二、小结

这里我选择了近两年的5篇三大顶会的文献,除了一篇文章是2018年的,其他4篇全部是2019年的,这5篇文章如下:

M. Shah, X. Chen, M. Rohrbach, D. Parikh. "Cycle-Consistency for Robust Visual Question Answering." In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019

A. F. Biten, R. Tito, A. Mafla, L. Gomez, M. Rusinol, E. Valveny, C.V. Jawahar, D. Karatzas. “ Scene Text Visual Question Answering." International Conference on Computer Vision (ICCV), 2019

Q. Li, Q. Tao, S. Joty, J. Cai, J. Luo. "VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions." European Conference on Computer Vision (ECCV), 2018

N. Bhattacharya, Q. Li, D. Gurari. “Why Does a Visual Question Have Different Answers?” International Conference on Computer Vision (ICCV), 2019  

K. Marino, M. Rastegari, A. Farhadi, R. Mottaghi. “OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge.” In The IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019  

其中的作者Qing Li出现了两次,不过很可惜,没有找到这个作者的信息。之前自己也有对这5篇文章进行过解读,具体文章解读如下:

【文献阅读】具有循环一致性的鲁棒VQA与数据集VQA-Rephrasings(M. Shah等人,CVPR,2019)

【文献阅读】ST-VQA——利用图像中的场景文本进行视觉问答(A. F. Biten等人,ICCV,2019)

【文献阅读】VQA-E——一种对预测答案解释的模型和数据集(Q. Li等人,ECCV,2018)

【文献阅读】为何视觉问题有多个答案(N. Bhattacharya等人,ICCV,2019,有代码)

【文献阅读】基于外部知识的数据集制作与模型OK-VQA(K. Marino等人,CVPR,2019)

这5篇文章都有很强的相似性,所有文章的行文思路非常类似,都是提出场景——制作数据集——改善模型——模型比较

因为VQA 2.0数据集其实非常全面,那么这里在做数据集的时候,必须假设一种VQA 2.0没有考虑到的场景,比如需要涉及外部知识(OK-VQA);比如相似问题应该有相同的答案(VQA-Rephrasings);比如图像中的场景文本能够提供非常重要的信息(ST-VQA)。由此而制作自己需要解决问题的数据集。当然做好数据集之后还必须要有对数据集的分析部分。这部分工作量其实都挺大的:

接下来是改善模型,这里的改善都没有大改,都是在原有VQA模型的基础上,添加一个模块用于解决更细化的问题,比如OK-VQA引入了外部知识检索模块AN;比如ST-VQA引入了场景文本检索模块;比如VQA-E引入了LSTM解释生成模块。

模型比较则有两种思路,一种是与经典模型比较,一种则是与自身的ablation study,大部分都是两部分工作都做了:

三、想法

根据以上思路,其实套路一篇VQA还是比较简单的,个人觉得关键就是在于场景设定和如何往现有模型中添加模块。目前我能够设想到的一些场景比如:

1. 比如同义词的问题,square既能表示广场,也能表示正方形,不过似乎在NLP中见到过类似的处理方法。

2. 主观感受问题,比如一张抽象的图,或者一张类似太阳之类的图,可以让人感受到温暖,希望等感觉。

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

全部梭哈迟早暴富

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值