VQA
文章平均质量分 93
Tiám青年
主要做vqa,欢迎私聊,互留联系方式
展开
-
CSS-VQA 的自我理解
我们依次介绍V-CSS的的所有步骤,该步骤包括四个主要步骤:初始对象选择(IO_SEL),对象局部贡献计算,关键对象选择(CO_SEL) ,以及动态答案分配(DA_ASS)。1. Initial Objects Selection (IO_SEL). 通常,对于任何特定的QA对,图像中只有几个对象是相关的。 为了缩小关键对象的选择范围,首先构造一个较小的对象集,并假定中的所有对象对于回答这个问题可能都是重要的,由于缺少每个样本的关键对象的注释,因此遵循[39]来提取与质量保证高度相关的对象。...原创 2020-09-15 13:37:12 · 504 阅读 · 3 评论 -
用于视觉问答的防御网格特征模型《In Defense of Grid Features for Visual Question Answering》
这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收获。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Popularized as ‘bottom-up’ attention [2], bounding box (or region) based visual features have recently surpassed vanilla grid-based convolutional features as the de facto standard for vision a原创 2020-06-21 17:32:06 · 1848 阅读 · 3 评论 -
基于反事实样本合成的鲁棒视觉问答模型《Counterfactual Samples Synthesizing for Robust Visual Question Answering》
这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收获。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Despite Visual Question Answering (VQA) has realized impressive progress over the last few years, today’s VQA models tend to capture superficial linguistic correlations in the train set and fa原创 2020-05-14 15:20:31 · 1645 阅读 · 1 评论 -
用于视觉问答的四元数乘积的多层内容交互模型《MULTI-LAYER CONTENT INTERACTION THROUGH QUATERNION PRODUCT FOR VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Multi-modality fusion technologies have greatly improved the performance of neural network-based V...原创 2020-02-06 17:14:26 · 648 阅读 · 0 评论 -
从Transformers学习跨模态编码器表示《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Vision-and-language reasoning requires an understanding of visual concepts, language semantics, an...原创 2020-02-04 16:36:40 · 6982 阅读 · 0 评论 -
用于视觉问答的统一视觉语言预训练模型《Unified Vision-Language Pre-Training for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍This paper presents a unified Vision-Language Pre-training (VLP) model. The model is unified in th...原创 2020-02-04 10:11:32 · 3767 阅读 · 2 评论 -
用于视觉问答的相互注意融合模型《Reciprocal Attention Fusion for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Existing attention mechanisms either attend to local image-grid or object level features for Visua...原创 2020-02-03 12:08:05 · 1126 阅读 · 0 评论 -
用于视觉问答的问题-引导混合卷积模型《Question-Guided Hybrid Convolution for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍In this paper, we propose a novel Question-Guided Hybrid Convolution (QGHC) network for Visual Que...原创 2020-02-03 09:14:10 · 896 阅读 · 0 评论 -
用于视觉问答的与问题无关的注意模型《Question-Agnostic Attention for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Visual Question Answering (VQA) models employ attention mechanisms to discover image locations tha...原创 2020-02-02 14:27:16 · 767 阅读 · 1 评论 -
用于视觉问答的基于关系推理和注意力的多峰特征融合模型《Multimodal feature fusion by relational reasoning and attention for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍The recently emerged research of Visual Question Answering (VQA) has become a hot topic in compute...原创 2020-02-01 21:08:13 · 1926 阅读 · 4 评论 -
《R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Recently, Visual Question Answering (VQA) has emerged as one of the most significant tasks in mult...原创 2020-02-01 12:00:29 · 700 阅读 · 0 评论 -
用于视觉问答的学习视觉知识记忆网络模型《Learning Visual Knowledge Memory Networks for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Visual question answering (VQA) requires joint comprehension of images and natural language questi...原创 2020-01-31 14:13:59 · 994 阅读 · 0 评论 -
用于视觉问答的图形推理网络模型《Graph Reasoning Networks for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍The interaction between language and visual information has been emphasized in visual question ans...原创 2020-01-31 08:58:38 · 2062 阅读 · 3 评论 -
解释与注意:用于视觉问答的一场获得注意的两人游戏模型《Explanation vs Attention: A Two-Player Game to Obtain Attention for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍In this paper, we aim to obtain improved attention for a visual question answering (VQA) task. It ...原创 2020-01-30 12:28:42 · 694 阅读 · 0 评论 -
用于视觉问题回答的差异化注意力模型《Differential Attention for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍In this paper we aim to answer questions based on images when provided with a dataset of question-...原创 2020-01-20 15:43:46 · 947 阅读 · 0 评论 -
用于视觉问题回答的紧凑三线性交互模型《Compact Trilinear Interaction for Visual Question Answering》
这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍In Visual Question Answering (VQA), answers have a great correlation with question meaning and visual contents. Thus, to selectively uti...原创 2020-01-18 11:59:42 · 1184 阅读 · 2 评论 -
用于视觉问答的双线性超对角线融合模型《BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Multimodal representation learning is gaining more and more interest within the deep learning comm...原创 2020-01-13 18:27:20 · 1404 阅读 · 0 评论 -
注意上的注意:用于视觉问答的框架《Attention on Attention: Architectures for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Visual Question Answering (VQA) is an increasingly popular topic in deep learning research, requir...原创 2020-01-11 20:32:35 · 1026 阅读 · 0 评论 -
视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》
目录一、文献摘要介绍二、引言三、两个模型介绍四、两个模型的深度研究五、总结这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Attention mechanisms have been widely used in Visual Question Answering (VQA) solutions...原创 2020-01-10 18:56:42 · 1211 阅读 · 0 评论 -
《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍A key solution to visual question answering (VQA) exists in how to fuse visual and language features extracted ...原创 2019-12-18 10:47:36 · 341 阅读 · 0 评论 -
用于视觉问答的深度注意神经张量网络模型《Deep Attention Neural Tensor Network for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍Visual question answering (VQA) has drawn great attention in cross-modal learning problems, which enables a mac...原创 2019-11-26 21:14:10 · 934 阅读 · 0 评论 -
用于图像描述的注意上的注意模型《Attention on Attention for Image Captioning》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍Attention mechanisms are widely used in current encoder/decoder frameworks of image captioning, where a weighte...原创 2019-11-17 23:21:10 · 7583 阅读 · 3 评论 -
自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》
本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍Top-down visual attention mechanisms have been used extensively in image captioning and visual question answering (VQA) to enable deeper image unders...原创 2019-11-12 22:43:50 · 7366 阅读 · 0 评论 -
双线性注意力网络模型《Bilinear Attention Networks》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍Attention networks in multimodal learning provide an effificient way to utilize given visual information select...原创 2019-11-10 23:47:52 · 10141 阅读 · 0 评论 -
用于视觉问答的关系感知图注意力网络模型《Relation-Aware Graph Attention Network for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍In order to answer semantically-complicated questions about an image, a Visual Question Answering (VQA) model n...原创 2019-11-06 22:07:42 · 3503 阅读 · 5 评论 -
用于视觉问答的多模态潜在交互网络模型《Multi-modality Latent Interaction Network for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文地址一、文献摘要介绍 Exploiting relationships between visual regions and question words have achieved great success in learning...原创 2019-11-05 13:33:12 · 1855 阅读 · 0 评论 -
用于鲁棒性视觉问答的循环一致性模型《Cycle-Consistency for Robust Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流 附: 论文下载一、文献摘要介绍 Despite signifificant progress in Visual Question Answering over the years, robustness of today’s VQA models ...原创 2019-11-04 14:12:29 · 1843 阅读 · 0 评论 -
用于视觉问答的具有模态内和模态间注意力的动态融合模型《Dynamic Fusion with Intra- and Inter-modality Attention Flow for VQA 》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,这篇文章和上篇文章,有着相同的构思,请参考上篇文章。 另附:本论文地址一、文献摘要介绍 Learning effective fusion of multi-modality features is at the heart of visual ...原创 2019-10-31 14:02:27 · 1491 阅读 · 0 评论 -
用于视觉问答的多模态关系推理的模型《Multimodal Relational Reasoning for Visual Question Answering》
目录文献摘要介绍网络框架介绍实验分析结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流 附: 本文的代码地址一、文献摘要介绍 Multimodal attentional networks are currently state-of-the-art models for Visual Question Answering ...原创 2019-10-29 16:43:00 · 1534 阅读 · 0 评论