视觉问答阅读
文章平均质量分 92
记录视觉问答相关文献
全部梭哈迟早暴富
这个作者很懒,什么都没留下…
展开
-
【文献阅读】AdVQA——人为干扰下的视觉问答数据集(Sasha Sheng等人,ArXiv,2021)
一、背景 文章题目:《》 文献下载地址: 文献引用格式: 项目地址:原创 2021-08-18 10:39:14 · 499 阅读 · 0 评论 -
【文献阅读】GraphVQA——语言导向的GNN解决场景图的问答(Weixin Liang等人,ArXiv,2021)
一、背景文章题目:《GraphVQA: Language-Guided Graph Neural Networks for Scene Graph Question Answering》和【文献阅读】LRTA——图网络解释VQA的答案生成过程(W. Liang等人,NeurIPS,2020)这一篇是同一个作者,内容也比较相似。文章下载地址:https://arxiv.org/pdf/2104.10283.pdf文章引用格式:Weixin Liang, Yanhao Jiang, Zixuan原创 2021-04-28 10:44:04 · 1337 阅读 · 1 评论 -
【文献阅读】MMQA——基于图像、文本和表格的问答(Alon Talmor等人,ICLR,2021)
一、背景文章题目:《MultiModalQA: Complex Question Answering Over Text, Tables and Images》文章下载地址:https://arxiv.org/pdf/2104.06039.pdf文章引用格式:Alon Talmor, Ori Yoran, Amnon Catav, Dan Lahav, Yizhong Wang, Akari Asai, Gabriel Ilharco, Hannaneh Hajishirzi and Jonat原创 2021-04-20 15:16:18 · 1756 阅读 · 0 评论 -
【文献阅读】PQA——感知问答的数据集和方法(Y. Qi等人,CVPR,2021)
一、背景文章题目:《PQA: Perceptual Question Answering》文章下载地址:https://arxiv.org/pdf/2104.03589.pdf文章引用格式:Yonggang Qi, Kai Zhang, Aneeshan Sain, Yi-Zhe Song. "Density Map Guided Object Detection in Aerial Images." In The IEEE Conference on Computer Vision and P原创 2021-04-09 17:49:46 · 884 阅读 · 0 评论 -
【文献阅读】SLAKE——医学图像的VQA双语数据集(Bo Liu等人,ArXiv,2021)
一、背景文章题目:《SLAKE: A Semantically-LabeledKnowledge-Enhanced Datasetfor Medical Visual Question Answering》文章下载地址:https://arxiv.org/pdf/2102.09542.pdf文章引用格式:Bo Liu,Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang,Xiao-Ming Wu."SLAKE: A Semantically-LabeledKn...原创 2021-03-22 10:37:46 · 2408 阅读 · 2 评论 -
【文献阅读】VQA能干啥?VQA相关现实应用和未来挑战(Silvio Barraa等人,ArXiv,2021)
一、背景文章题目:《Visual Question Answering: which investigated applications?》文章下载地址:https://arxiv.org/pdf/2103.02937.pdf文章引用格式:Silvio Barraa, Carmen Bisognib, Maria De Marsicoc, Stefano Ricciardi."Visual Question Answering: which investigated applications..原创 2021-03-12 17:38:10 · 3370 阅读 · 3 评论 -
【文献阅读】BGN+AN——将答案看做属性组成的小样本VQA学习(D. Guo等人,ArXiv,2021)
一、文章概况文章题目:《Learning Compositional Representation for Few-shot Visual Question Answering》文章下载链接:https://arxiv.org/pdf/2102.10575.pdf文章引用格式:Dalu Guo and Dacheng Tao."Learning Compositional Representation for Few-shot Visual Question Answering".arXi...原创 2021-03-01 17:26:33 · 822 阅读 · 0 评论 -
【文献阅读】XVQA——一篇关于VQA的解释性研究(K. Alipour等人,ArXiv,2020)
一、文章概况文章题目:《A Study on Multimodal and Interactive Explanations for Visual Question Answering》文章下载链接:https://arxiv.org/pdf/2003.00431.pdf文章引用格式:Kamran Alipour,Jurgen P. Schulze,Yi Yao,Avi Ziskindand Giedrius Burachas."A Study on Multimodal and I...原创 2021-02-25 10:13:54 · 875 阅读 · 0 评论 -
【文献阅读】FloodNet——洪水灾害的VQA问答数据集(M. Rahnemoonfar等人,ArXiv,2020)
一、背景文章题目:《FloodNet: A High Resolution Aerial Imagery Dataset for Post Flood Scene Understanding》文章下载:https://arxiv.org/pdf/2012.02951.pdf文章引用:Maryam Rahnemoonfar, Tashnim Chowdhury, Argho Sarkar, Debvrat Varshney, Masoud Yari and Robin Murphy."Floo..原创 2020-12-21 17:16:34 · 2455 阅读 · 1 评论 -
【文献阅读】HieCoAttenVQA——分层协同注意力网络VQA(J. Lu等人,NIPS,2016,有代码)
一、背景文章题目:《Hierarchical Question-Image Co-Attention for Visual Question Answering》这篇文章比较早,所以就挑一些重要的内容来写。文章下载地址:https://arxiv.org/pdf/1606.00061.pdf文章引用格式:Jiasen Lu, Jianwei Yang, Dhruv Batra, Devi Parikh. "Hierarchical Question-Image Co-Attention fo原创 2020-12-08 16:03:04 · 1680 阅读 · 7 评论 -
【文献阅读】LRTA——图网络解释VQA的答案生成过程(W. Liang等人,NeurIPS,2020)
一、背景文章题目:《LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular Supervision for Visual Question Answering》这篇文章的核心内容只有5页,但是做的挺好,方法很新,读起来也非常容易理解。文章下载地址:https://arxiv.org/pdf/2011.10731.pdf文章引用格式:Weixin Liang,Feiyang Niu, Aishwarya Reg.原创 2020-12-03 11:18:28 · 1331 阅读 · 0 评论 -
【文献阅读】SelResVQA——具有自适应选择的学习模态内的关系(J. Hong等人,Neurocomputing,2020)
一、背景文章题目:《Selective residual learning for Visual Question Answering》文章下载地址:https://linkinghub.elsevier.com/retrieve/pii/S0925231220304859文章引用格式:Jongkwang Hong, Sungho Park, Hyeran Byun. Selective residual learning for Visual Question Answering.Neuro.原创 2020-11-26 15:11:11 · 1566 阅读 · 4 评论 -
【文献阅读】MLIN——对视觉区域和问题单词之间的关系进行建模(P. Gao等人,ICCV,2019)
一、背景文章题目:《Multi-modality Latent Interaction Network for Visual Question Answering》文章下载地址:https://openaccess.thecvf.com/content_ICCV_2019/papers/Gao_Multi-Modality_Latent_Interaction_Network_for_Visual_Question_Answering_ICCV_2019_paper.pdf文章引用格式:Linj原创 2020-09-28 11:37:11 · 1018 阅读 · 0 评论 -
【文献阅读】ReGAT——关系感知图注意力网络来提高VQA对图像中复杂语义的理解(L. Li等人,ICCV,2019)
一、背景文章题目:《Relation-Aware Graph Attention Network for Visual Question Answering》文章下载地址:https://ieeexplore.ieee.org/document/9010056或者https://openaccess.thecvf.com/content_ICCV_2019/papers/Li_Relation-Aware_Graph_Attention_Network_for_Visual_Question_A..原创 2020-09-01 14:35:16 · 2440 阅读 · 0 评论 -
【文献阅读】基于格网注意力的VQA比基于区域注意力的VQA更快更轻?(H. Jiang等人,CVPR,2020)
一、背景文章题目:《In Defense of Grid Features for Visual Question Answering》文章下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Jiang_In_Defense_of_Grid_Features_for_Visual_Question_Answering_CVPR_2020_paper.pdf文献引用格式:Huaizu Jiang, Ishan Misra, Mar原创 2020-08-25 15:12:42 · 555 阅读 · 1 评论 -
【文献阅读】MFB——结合协同注意力的多模态矩阵分解的双线性池化方法(Z. Yu等人,ICCV,2017,有代码)
一、背景文章题目:《Multi-modal Factorized Bilinear Pooling with Co-Attention Learning for Visual Question Answering》文章下载地址:https://arxiv.org/pdf/1708.01471.pdf文章引用格式:Zhou Yu, Jun Yu, Jianping Fan, Dacheng Tao. "Multi-modal Factorized Bilinear Pooling with Co-原创 2020-08-19 16:58:18 · 5157 阅读 · 0 评论 -
【文献阅读】seada-VQA对数据进行对抗增强并保留语义正确性(R. Tang等人,ArXiv,2020)
一、背景文章题目:《Semantic Equivalent Adversarial Data Augmentation for Visual Question Answering》文章下载地址:https://arxiv.org/pdf/2007.09592.pdf文章引用格式:Ruixue Tang, Chao Ma, Wei Emma Zhang, Qi Wu, and Xiaokang Yang. "Semantic Equivalent Adversarial Data Augmenta原创 2020-08-06 10:52:36 · 982 阅读 · 1 评论 -
【文献阅读】在VQA的答案空间中引入相似性测度(Corentin Kervadec等人,ArXiv,2020)
一、背景文章题目:《Estimating sementic structure for the VQA answer space》和前面的那篇文章是同一个团队:【文献阅读】GQA-OOD——测试低频样本问答的数据集和评估方法(Corentin Kervadec等人,ArXiv,2020,有代码),这篇文章的思路其实也比较好理解,就是因为一般答案环节都是用分类来做的, 无法度量相似类别,因此作者在答案空间进行了修改。文献下载地址:https://arxiv.org/pdf/2006.05726.p原创 2020-07-28 11:29:52 · 673 阅读 · 1 评论 -
【文献阅读】FPAIT——小样本学习与VQA(X. Dong等人,ACM MM,2018,有代码)
一、背景文章题目:《Fast Parameter Adaptation for Few-shot Image Captioning and Visual Qestion Answering》之前看小样本学习的时候看到的一篇few-shot+VQA,不过一直没仔细看,现在回过头来看一下这篇文章。文章下载地址:忘了这篇文章是从哪下载的了。。。文章引用格式:Xuanyi Dong, Linchao Zhu, De Zhang, Yi Yang, Fei Wu. 2018. Fast Paramet原创 2020-07-21 16:33:49 · 801 阅读 · 0 评论 -
【文献阅读】EST-VQA——基于事实的场景文本VQA(X. Wang等人,CVPR,2020)
一、背景文章题目:《On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering》这篇文章是关于场景文本的研究。文章下载地址:https://openaccess.thecvf.com/content_CVPR_2020/papers/Wang_On_the_General_Value_of_Evidence_and_Bilingual_Scene-Text_Visual_CVPR_202原创 2020-07-14 10:30:18 · 1581 阅读 · 2 评论 -
【文献阅读】CSS-VQA——一种提升VQA模型的视觉可解释性和问题敏感性的训练机制(L. Chen等人,CVPR,2020,有代码)
一、背景文章题目:《Counterfactual Samples Synthesizing for Robust Visual Question Answering》CVPR2020的文章已经公布了,看了一下,这一届VQA的文章很少。文章下载地址:http://openaccess.thecvf.com/content_CVPR_2020/papers/Chen_Counterfactual_Samples_Synthesizing_for_Robust_Visual_Question_Answ原创 2020-07-03 15:59:57 · 1170 阅读 · 0 评论 -
【文献阅读】GQA-OOD——测试低频样本问答的数据集和评估方法(Corentin Kervadec等人,ArXiv,2020,有代码)
一、背景文章题目:《Roses are red, violets are blue ... but should VQA expect them to ?》这篇文章的作者都是来自于法国的Orange Labs,读这篇文章的原因是题目起的非常艺术,不像一般起名都是“基于。。。的方法”之类。文章下载地址:https://arxiv.org/pdf/2006.05121.pdf文献引用格式:Corentin Kervadec, Grigory Antipov, Moez Baccouche and原创 2020-06-22 14:39:01 · 1239 阅读 · 0 评论 -
【文献阅读】MUTAN——多模态塔克融合VQA模型(Hedi Ben-younes等人,ArXiv,2017,有代码)
一、背景文章题目:《MUTAN: Multimodal Tucker Fusion for Visual Question Answering》17年的一篇文章,不过后面看到很多文献引用了这篇,所以还是记录一下。文章下载地址:https://arxiv.org/pdf/1705.06676.pdf文献引用格式:Hedi Ben-younes, R´emi Cadene, Matthieu Cord and Nicolas Thome. (2017) "MUTAN: Multimodal Tu原创 2020-06-04 17:13:39 · 3672 阅读 · 1 评论 -
【文献阅读】SAAA——堆叠多层注意力的VQA网络(T. Do等人,ArXiv,2017,有代码)
一、背景文章题目:《Show, Ask,Attend, and Answer:A Strong Baseline For Visual Question Answering》ArXiv上的一篇文章,虽然是17年的比较早,但是比较经典,后面看到很多新的模型都与这个模型进行了对比。看了一下模型结构,算是SAN网络的升级版吧。文章下载地址:https://arxiv.org/pdf/1704.03162.pdf文章引用格式:Vahid Kazemi and Ali Elqursh. "Show,.原创 2020-06-03 10:35:11 · 792 阅读 · 0 评论 -
【文献阅读】BLOCK——用于VQA的双线性超对角融合模型(Hedi Ben-younes等人,AAAI,2019,有代码)
一、背景文章题目:《BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection》AAAI2019的一篇文章。文章下载地址:https://aaai.org/ojs/index.php/AAAI/article/download/4818/4691文章引用格式:Hedi Ben-younes, Remi Cadene, Nicolas Thome, Ma原创 2020-06-02 11:00:13 · 2268 阅读 · 0 评论 -
【文献阅读】将VQA视作元学习(Damien Teney等人,ECCV,2018)
一、背景文章题目:《Visual Question Answering as a Meta Learning Task》ECCV2018的一篇文章。元学习和VQA的结合,非常值得关注。文章下载地址:http://openaccess.thecvf.com/content_ECCV_2018/papers/Damien_Teney_Visual_Question_Answering_ECCV_2018_paper.pdf文章引用格式:Damien Teney and Anton van den原创 2020-05-29 17:23:59 · 679 阅读 · 0 评论 -
【文献阅读】VQA中的原因生成(H. A. Ayyubi等人,ArXiv,2020)
一、背景文章题目:《Generating Rationales in Visual Question Answering》Arxiv上比较新的一篇文章。作者全部来自于UC San Diego。这篇文章重点研究的是VQA模型的可解释性,个人感觉和【文献阅读】VQA-E——一种对预测答案解释的模型和数据集(Q. Li等人,ECCV,2018)这一篇文章的思路差不多。文章下载地址:https...原创 2020-05-12 17:37:34 · 682 阅读 · 1 评论 -
【文献阅读】SAN——一种利用双层注意力的VQA网络(T. Do等人,ArXiv,2015,有代码)
一、背景文章题目:《Stacked Attention Networks for Image Question Answering》这是2015年的一篇文章,文章比较早,但是比较经典,后面做的很多文章都有过和这个模型的比较。文章下载地址:https://arxiv.org/pdf/1511.02274.pdf文章引用格式:Z. Yang, X. He, J. Gao, L. Den...原创 2020-01-02 15:16:54 · 2288 阅读 · 0 评论 -
【文献阅读】VQA-CTI——将知识蒸馏用于视觉问答VQA的紧凑三重交互(T. Do等人,ICCV,2019,有代码)
一、背景文章题目:《Compact Trilinear Interaction for Visual Question Answering》ICCV2019的一篇文章。文章下载地址:http://openaccess.thecvf.com/content_ICCV_2019/papers/Do_Compact_Trilinear_Interaction_for_Visual_Quest...原创 2019-12-06 16:15:34 · 1484 阅读 · 0 评论 -
【文献阅读】VQA-E——一种对预测答案解释的模型和数据集(Q. Li等人,ECCV,2018)
一、文章背景文章题目:《VQA-E: Explaining, Elaborating, and Enhancing Your Answers for Visual Questions》这是去年ECCV会议的一篇文章。文章下载地址:http://openaccess.thecvf.com/content_ECCV_2018/papers/Qing_Li_VQA-E_Explaining_...原创 2019-10-24 14:36:36 · 1817 阅读 · 0 评论 -
【文献阅读】BAN——双线性注意力网络Bilinear Attention Networks(J. Kim等人,NIPS,2018,有代码)
一、文章概况文章题目:《Bilinear Attention Networks》这篇文章是VQA领域非常经典的一篇文章,最近看到的很多新文章都提到了这篇文章。文章下载地址:http://papers.nips.cc/paper/7429-bilinear-attention-networks.pdf文章引用格式:J. Kim, J. Jun, B. Zhang. "Bilinear...原创 2019-09-06 09:55:39 · 12358 阅读 · 0 评论 -
【文献阅读】VQA的综述:方法和数据集(Q. Wu等人,Computer Vision and Image Understanding,2017)
一、文章背景文章题目:《Visual question answering: A survey of methods and datasets》这篇文章算是早期比较经典的VQA综述之一了。作者是来自沈春华老师团队。文章下载地址:https://www.sciencedirect.com/science/article/pii/S1077314217300772文章引用格式:Q. W...原创 2019-09-23 15:56:28 · 2971 阅读 · 1 评论 -
【文献阅读】RUBi——一种解决单模态偏差的VQA模型(R. Cadene等人,NIPS,2019,有代码)
一、文章背景文章题目:《RUBi: Reducing Unimodal Biases in Visual Question Answering》这篇文章在NIPS上还没有给出下载地址,我是在作者Devi Parikh的个人主页上找到的这篇文章。NIPS2019上关于VQA的文章比较少,先从这篇文章读起。文章下载链接:https://arxiv.org/pdf/1906.10169.pd...原创 2019-10-12 10:12:22 · 2287 阅读 · 1 评论 -
【文献阅读】具有循环一致性的鲁棒VQA与数据集VQA-Rephrasings(M. Shah等人,CVPR,2019)
一、文章概况文章题目:《Cycle-Consistency for Robust Visual Question Answering》这篇文章和前面介绍的MirrorGAN几乎是同一个idea,作者主要来自facebook,找到了第三和第四作者的个人主页,其中Marcus Rohrbach一直在做VQA,可以关注下,但是他的个人主页已经很久没有更新了:[1]Marcus Rohrba...原创 2019-09-03 17:06:15 · 1058 阅读 · 0 评论 -
【文献阅读】利用历史问答的两阶段(two-stage)的Image-QA协同网络(D. Guo等人,CVPR,2019)
一、文章概况文章题目:《Image-Question-Answer Synergistic Network for Visual Dialog》文章第三作者是Dacheng Tao,又是陶老师指导的一篇文章,上一篇精读的是MirrorGAN(也是CVPR2019的文章)。这篇文章作者三人也是做VQA的,他们的另一篇近期文章《Graph Reasoning Networks for Visu...原创 2019-08-20 14:15:29 · 941 阅读 · 0 评论 -
【文献阅读】MCAN——用于VQA的深层模块化的协同注意力网络(Z. Yu等人,CVPR,2019,有代码)
一、文章概况文章题目:《Deep Modular Co-Attention Networks for Visual Question Answering》前面三位作者是杭电的,第四作者是陶老师,感觉陶老师在VQA领域非常高产,已经在CVPR2019上看到他的好几篇文章了。文章下载地址:http://openaccess.thecvf.com/content_CVPR_2019/pape...原创 2019-08-26 16:19:29 · 6626 阅读 · 1 评论 -
【文献阅读】VQA的综述:数据集,算法和挑战(K. Kafle等人,Computer Vision and Image Understanding,2017)
一、文章背景文章题目:《Visual Question Answering: Datasets, Algorithms, and Future Challenges》这篇文章是VQA比较早的综述性文章,作为VQA入门的话值得一看。这篇文章在arXiv上可以看到是2016年10月投递的,后来于2017年被《Computer Vision and Image Understanding》接收。...原创 2019-08-13 17:49:18 · 5078 阅读 · 1 评论 -
【文献阅读】兼顾图像理解和推理能力的VQA模型(R. Shrestha等人,CVPR,2019)
一、文章概况文章题目:《Answer Them All! Toward Universal Visual Question Answering Models》CVPR2019的一篇文章,CVPR2019关于VQA一共大约只有12篇文章[1],近期打算一遍看看早期的VQA技术,一边看看最新的VQA,之后再打算开始实验。另外还有个题外话,第三位作者Christopher Kanan非常有名,我...原创 2019-08-19 10:31:13 · 2231 阅读 · 0 评论 -
【文献阅读】OK-VQA——基于外部知识的数据集制作与模型(K. Marino等人,CVPR,2019)
一、文章概况文章题目:《OK-VQA: A Visual Question Answering Benchmark Requiring External Knowledge》一作(也是通讯作者)是CMU的,在Allen Institute for AI实习期间的工作。一作的个人主页为[1],四作的个人主页为[2].[1]Kenneth Marino的个人主页 (作者的个人主页似乎没...原创 2019-08-28 15:15:01 · 2438 阅读 · 3 评论 -
【文献阅读】BUTD——自上而下注意力机制的视觉问答系统(P. Anderson等人,CVPR,2018,有代码)
一、文献概况文章题目:《Bottom-up and top-down attention for image captioning and visual question answering》偶然看到VQA(visual question answering),才发现VQA才是最接近我课题研究的模型,接下来一段时间可能要深入VQA的相关学习了。这篇文章是作者在微软实习的时候发表的,被CVP...原创 2019-08-05 16:29:51 · 4623 阅读 · 0 评论