视觉问答(VQA)相关
全部梭哈迟早暴富
这个作者很懒,什么都没留下…
展开
-
【文献阅读】EST-VQA——基于事实的场景文本VQA(X. Wang等人,CVPR,2020)
一、背景文章题目:《On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering》这篇文章是关于场景文本的研究。文章下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_On_the_General_Value_of_Evidence_and_Bilingual_Scene-Text_Visual_CVPR_202原创 2020-07-14 10:30:18 · 1689 阅读 · 2 评论 -
视觉问答学习(二)——堆叠注意力网络SAAA(tensorflow实现)(未完待续)
一、背景本文实现的模型来自于论文:《Show, Ask,Attend, and Answer:A Strong Baseline For Visual Question Answering》该模型比较经典,也是本系列的第二篇视觉问答模型,主要参考代码【1】,但是由于原模型中,数据集封装的比较好,复现到其他数据集上的话会比较困难,因此我把数据集部分的读取和加载做了改动。【1】https://github.com/momih/vqa_tensorflow二、论文简介这篇论文之前介绍过,这里.原创 2020-07-10 16:16:12 · 691 阅读 · 0 评论 -
【文献阅读】VQA中的原因生成(H. A. Ayyubi等人,ArXiv,2020)
一、背景文章题目:《Generating Rationales in Visual Question Answering》Arxiv上比较新的一篇文章。作者全部来自于UC San Diego。这篇文章重点研究的是VQA模型的可解释性,个人感觉和【文献阅读】VQA-E——一种对预测答案解释的模型和数据集(Q. Li等人,ECCV,2018)这一篇文章的思路差不多。文章下载地址:https...原创 2020-05-12 17:37:34 · 709 阅读 · 1 评论 -
【文献阅读】SAN——一种利用双层注意力的VQA网络(T. Do等人,ArXiv,2015,有代码)
一、背景文章题目:《Stacked Attention Networks for Image Question Answering》这是2015年的一篇文章,文章比较早,但是比较经典,后面做的很多文章都有过和这个模型的比较。文章下载地址:https://arxiv.org/pdf/1511.02274.pdf文章引用格式:Z. Yang, X. He, J. Gao, L. Den...原创 2020-01-02 15:16:54 · 2408 阅读 · 0 评论 -
关于VQA一种科研方向的小结及想法
一、背景从7月份进入课题组,开始了新的研究方向,即视觉问答VQA,前两个月毫无头绪,在补文本处理方面的知识。到8月底逐渐走到VQA这条路上。自己之前也没有做过文本方面的处理,所以开始上手VQA也是磕磕绊绊,经过半年的阅读文献积累,逐渐看清了一点VQA的趋势。便想把自己的一些想法写下来。二、小结这里我选择了近两年的5篇三大顶会的文献,除了一篇文章是2018年的,其他4篇全部是2019年的...原创 2019-12-19 14:36:04 · 2039 阅读 · 4 评论 -
视觉问答——使用预训练模型提取特征以及特征融合的代码学习(未完待续,tensorflow实现)
一、背景本教程用于记录自己学习视觉问答代码编写的学习过程。二、VQA关键部分代码标准VQA模型包括3个模块,分别是图像特征提取模块,文本特征提取模块,以及特征融合后的分类模块。标准VQA模型如下图所示:1. 图像特征提取一般我们用预训练好的CNN模型,这里常用的包括vgg16/19,resnet-152/101,faster rcnn。主要的是这三类,当然你也可以自己写cn...原创 2019-12-13 17:15:56 · 7079 阅读 · 2 评论 -
【文献阅读】VQA-CTI——将知识蒸馏用于视觉问答VQA的紧凑三重交互(T. Do等人,ICCV,2019,有代码)
一、背景文章题目:《Compact Trilinear Interaction for Visual Question Answering》ICCV2019的一篇文章。文章下载地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Do_Compact_Trilinear_Interaction_for_Visual_Quest...原创 2019-12-06 16:15:34 · 1512 阅读 · 0 评论 -
【文献阅读】ST-VQA——利用图像中的场景文本进行视觉问答(A. F. Biten等人,ICCV,2019)
一、背景文章题目:《Scene Text Visual Question Answering》ICCV2019的一篇文章,作者主要来自西班牙。文章下载地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Biten_Scene_Text_Visual_Question_Answering_ICCV_2019_paper.pdf...原创 2019-11-21 17:03:31 · 3359 阅读 · 0 评论 -
视觉问答学习(一)——视觉问答的动态记忆网络DMN+(tensorflow实现)
一、背景本文实现的模型来自于论文:《Dynamic Memory Networks for Visual and Textual Question Answering》之前做了两个月杂活,最近该上手实验了,这里先从别人的实验开始学习。这篇是视觉问答实验的第一篇。实验数据比较多,图片用的是COCO的,文本标注是VQA 1.0的,另外还用到了vgg16,所以需要准备的东西也非常多。二、...原创 2019-11-18 17:27:03 · 3507 阅读 · 0 评论 -
【文献阅读】为何视觉问题有多个答案(N. Bhattacharya等人,ICCV,2019,有代码)
一、文章背景文章题目:《Why Does a Visual Question Have Different Answers?》今年ICCV的一篇文章。文章下载地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Bhattacharya_Why_Does_a_Visual_Question_Have_Different_Ans...原创 2019-11-11 16:15:44 · 778 阅读 · 0 评论 -
【文献阅读】VQA-E——一种对预测答案解释的模型和数据集(Q. Li等人,ECCV,2018)
一、文章背景文章题目:《VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions》这是去年ECCV会议的一篇文章。文章下载地址:http://openaccess.thecvf.com/content_ECCV_2018/papers/Qing_Li_VQA-E_Explaining_...原创 2019-10-24 14:36:36 · 1861 阅读 · 0 评论 -
【文献阅读】RUBi——一种解决单模态偏差的VQA模型(R. Cadene等人,NIPS,2019,有代码)
一、文章背景文章题目:《RUBi: Reducing Unimodal Biases in Visual Question Answering》这篇文章在NIPS上还没有给出下载地址,我是在作者Devi Parikh的个人主页上找到的这篇文章。NIPS2019上关于VQA的文章比较少,先从这篇文章读起。文章下载链接:https://arxiv.org/pdf/1906.10169.pd...原创 2019-10-12 10:12:22 · 2404 阅读 · 1 评论 -
【文献阅读】VQA的一篇综述(D. Teney等人,IEEE Signal Processing Magazine,2017)
一、文章背景文章题目:《Visual Question Answering : A tutorial》这篇文章和《Visual question answering: A survey of methods and datasets》这篇文章有同一作者Q. Wu和D. Teney,所以感觉两篇文章实际上差不多。文章下载地址:https://ieeexplore.ieee.org/doc...原创 2019-09-27 17:32:37 · 2118 阅读 · 0 评论 -
【文献阅读】DFAF——模态内和模态间动态融合的VQA模型(P. Gao等人,CVPR,2019)
一、文章概况文章题目:《Dynamic Fusion with Intra- and Inter-modality Attention Flow for Visual Question Answering》这篇文章是CVPR2019的文章,作者主要来自港中文。文章下载链接:http://openaccess.thecvf.com/content_CVPR_2019/papers/Gao...原创 2019-09-12 14:43:52 · 3364 阅读 · 0 评论 -
【文献阅读】BAN——双线性注意力网络Bilinear Attention Networks(J. Kim等人,NIPS,2018,有代码)
一、文章概况文章题目:《Bilinear Attention Networks》这篇文章是VQA领域非常经典的一篇文章,最近看到的很多新文章都提到了这篇文章。文章下载地址:http://papers.nips.cc/paper/7429-bilinear-attention-networks.pdf文章引用格式:J. Kim, J. Jun, B. Zhang. "Bilinear...原创 2019-09-06 09:55:39 · 13029 阅读 · 0 评论 -
【文献阅读】利用历史问答的两阶段(two-stage)的Image-QA协同网络(D. Guo等人,CVPR,2019)
一、文章概况文章题目:《Image-Question-Answer Synergistic Network for Visual Dialog》文章第三作者是Dacheng Tao,又是陶老师指导的一篇文章,上一篇精读的是MirrorGAN(也是CVPR2019的文章)。这篇文章作者三人也是做VQA的,他们的另一篇近期文章《Graph Reasoning Networks for Visu...原创 2019-08-20 14:15:29 · 972 阅读 · 0 评论 -
【文献阅读】视觉问答VQA中的一些技巧(D. Teney等人,CVPR,2018)
一、文献概况文章题目:《Tips and Tricks for Visual Question Answering: Learnings from the 2017 Challenge》注意到这篇文章是因为在2017 VQA Challenge冠军方案中作者引用到了这篇文章中的一些处理技巧,也就是《Bottom-up and top-down attention for image cap...原创 2019-08-10 21:06:15 · 892 阅读 · 0 评论 -
【文献阅读】MUREL——视觉问答VQA中的多模态关系推理(R. Cadene等人,CVPR,2019)
一、文献概况文章题目:《MUREL: Multimodal Relational Reasoning for Visual Question Answering》CVPR2019年的文章。CVPR2019中关于VQA的文章不多,看到这一篇故记录下来。文章下载地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Cadene_M...原创 2019-08-15 15:32:06 · 3028 阅读 · 0 评论 -
【文献阅读】MCAN——用于VQA的深层模块化的协同注意力网络(Z. Yu等人,CVPR,2019,有代码)
一、文章概况文章题目:《Deep Modular Co-Attention Networks for Visual Question Answering》前面三位作者是杭电的,第四作者是陶老师,感觉陶老师在VQA领域非常高产,已经在CVPR2019上看到他的好几篇文章了。文章下载地址:http://openaccess.thecvf.com/content_CVPR_2019/pape...原创 2019-08-26 16:19:29 · 6875 阅读 · 1 评论 -
【数据集收集】用于视觉问答VQA常用的数据集(持续更新,最后更新时间2019-09)
一、背景最近刚开始做视觉问答VQA,看了很多文献,但是目前还无从下手,所以准备先把网上的公开的VQA数据集记录下来。前面自己也读了一些文献,文献中多多少少都有介绍数据集的情况,比如:[1]【文献阅读】VQA的综述:数据集,算法和挑战(K. Kafle等人,Computer Vision and Image Understanding,2017)[2]【文献阅读】兼顾图像理解和推理能...原创 2019-08-23 09:40:02 · 15330 阅读 · 9 评论 -
【文献阅读】早期的视觉问答VQA模型(B. Zhou等人,arXiv,2015,有代码)
一、文献概况文章题目:《Simple Baseline for Visual Question Answering》ArXiv上2015年12月的一篇文章,属于VQA的早期模型,最近刚开始看VQA,相关文章都会记录下来文章下载地址:https://arxiv.org/pdf/1512.02167.pdf文章引用格式:B. Zhou, Y. Tian, S. Sukhbaatar, ...原创 2019-08-16 11:33:04 · 990 阅读 · 0 评论 -
【文献阅读】兼顾图像理解和推理能力的VQA模型(R. Shrestha等人,CVPR,2019)
一、文章概况文章题目:《Answer Them All! Toward Universal Visual Question Answering Models》CVPR2019的一篇文章,CVPR2019关于VQA一共大约只有12篇文章[1],近期打算一遍看看早期的VQA技术,一边看看最新的VQA,之后再打算开始实验。另外还有个题外话,第三位作者Christopher Kanan非常有名,我...原创 2019-08-19 10:31:13 · 2300 阅读 · 0 评论 -
【文献阅读】用自然语言来表达图像内容,将VQA视为阅读理解(H. Li等人,CVPR,2019)
一、文章概况文章题目:《Visual Question Answering as Reading Comprehension》沈春华老师[1]团队的文章,发表在CVPR2019上。[1]Chunhua Shen老师的个人主页文章下载地址:http://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Visual_Question...原创 2019-08-22 16:27:14 · 1119 阅读 · 0 评论 -
【文献阅读】OK-VQA——基于外部知识的数据集制作与模型(K. Marino等人,CVPR,2019)
一、文章概况文章题目:《OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge》一作(也是通讯作者)是CMU的,在Allen Institute for AI实习期间的工作。一作的个人主页为[1],四作的个人主页为[2].[1]Kenneth Marino的个人主页 (作者的个人主页似乎没...原创 2019-08-28 15:15:01 · 2717 阅读 · 3 评论 -
【文献阅读】VQA数据集中的语言偏见研究(V. Manjunatha等人,CVPR,2019)
一、文章概况文章题目:《Explicit Bias Discovery in Visual Question Answering Models》文章一作Varun Manjunatha来自adobe,后面两位作者Nirat Saini和Larry S. Davis来自马里兰,Larry S. Davis是Varun Manjunatha读博期间的导师。下面是作者的个人主页:[1]Va...原创 2019-08-29 19:26:18 · 1100 阅读 · 1 评论 -
【文献阅读】具有循环一致性的鲁棒VQA与数据集VQA-Rephrasings(M. Shah等人,CVPR,2019)
一、文章概况文章题目:《Cycle-Consistency for Robust Visual Question Answering》这篇文章和前面介绍的MirrorGAN几乎是同一个idea,作者主要来自facebook,找到了第三和第四作者的个人主页,其中Marcus Rohrbach一直在做VQA,可以关注下,但是他的个人主页已经很久没有更新了:[1]Marcus Rohrba...原创 2019-09-03 17:06:15 · 1096 阅读 · 0 评论 -
【文献阅读】BUTD——自上而下注意力机制的视觉问答系统(P. Anderson等人,CVPR,2018,有代码)
一、文献概况文章题目:《Bottom-up and top-down attention for image captioning and visual question answering》偶然看到VQA(visual question answering),才发现VQA才是最接近我课题研究的模型,接下来一段时间可能要深入VQA的相关学习了。这篇文章是作者在微软实习的时候发表的,被CVP...原创 2019-08-05 16:29:51 · 4798 阅读 · 0 评论