![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
计算机视觉
Tiám青年
主要做vqa,欢迎私聊,互留联系方式
展开
-
用于视觉问答的四元数乘积的多层内容交互模型《MULTI-LAYER CONTENT INTERACTION THROUGH QUATERNION PRODUCT FOR VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Multi-modality fusion technologies have greatly improved the performance of neural network-based V...原创 2020-02-06 17:14:26 · 642 阅读 · 0 评论 -
从Transformers学习跨模态编码器表示《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Vision-and-language reasoning requires an understanding of visual concepts, language semantics, an...原创 2020-02-04 16:36:40 · 6958 阅读 · 0 评论 -
用于视觉问答的统一视觉语言预训练模型《Unified Vision-Language Pre-Training for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍This paper presents a unified Vision-Language Pre-training (VLP) model. The model is unified in th...原创 2020-02-04 10:11:32 · 3747 阅读 · 2 评论 -
用于视觉问答的相互注意融合模型《Reciprocal Attention Fusion for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Existing attention mechanisms either attend to local image-grid or object level features for Visua...原创 2020-02-03 12:08:05 · 1111 阅读 · 0 评论 -
用于视觉问答的问题-引导混合卷积模型《Question-Guided Hybrid Convolution for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍In this paper, we propose a novel Question-Guided Hybrid Convolution (QGHC) network for Visual Que...原创 2020-02-03 09:14:10 · 889 阅读 · 0 评论 -
用于视觉问答的与问题无关的注意模型《Question-Agnostic Attention for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Visual Question Answering (VQA) models employ attention mechanisms to discover image locations tha...原创 2020-02-02 14:27:16 · 756 阅读 · 1 评论 -
用于视觉问答的基于关系推理和注意力的多峰特征融合模型《Multimodal feature fusion by relational reasoning and attention for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍The recently emerged research of Visual Question Answering (VQA) has become a hot topic in compute...原创 2020-02-01 21:08:13 · 1905 阅读 · 4 评论 -
《R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Recently, Visual Question Answering (VQA) has emerged as one of the most significant tasks in mult...原创 2020-02-01 12:00:29 · 694 阅读 · 0 评论 -
用于视觉问答的学习视觉知识记忆网络模型《Learning Visual Knowledge Memory Networks for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Visual question answering (VQA) requires joint comprehension of images and natural language questi...原创 2020-01-31 14:13:59 · 985 阅读 · 0 评论 -
《GQA:现实世界中的视觉推理》数据集介绍
此篇文章简单介绍了GQA数据集,是用于视觉问答的数据集,论文详细,PPT介绍,如有不如,欢迎大家交流。GQA—关于图像场景下的问答数据集。这是一个新的数据集,将被用于对现实世界中的图像进行视觉推理与组合回答的任务中。该数据集中包括了有关各种日常图像的近2000万条问题。每个图像都与一组场景图(scene graph)对应。每个问题都与其语义的结构化表示相关联在一起,并且约束应答者必须采用特定的...原创 2020-01-31 09:47:27 · 4511 阅读 · 0 评论 -
用于视觉问答的图形推理网络模型《Graph Reasoning Networks for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍The interaction between language and visual information has been emphasized in visual question ans...原创 2020-01-31 08:58:38 · 2051 阅读 · 3 评论 -
解释与注意:用于视觉问答的一场获得注意的两人游戏模型《Explanation vs Attention: A Two-Player Game to Obtain Attention for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍In this paper, we aim to obtain improved attention for a visual question answering (VQA) task. It ...原创 2020-01-30 12:28:42 · 683 阅读 · 0 评论 -
用于视觉问题回答的差异化注意力模型《Differential Attention for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍In this paper we aim to answer questions based on images when provided with a dataset of question-...原创 2020-01-20 15:43:46 · 938 阅读 · 0 评论 -
用于视觉问题回答的紧凑三线性交互模型《Compact Trilinear Interaction for Visual Question Answering》
这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍In Visual Question Answering (VQA), answers have a great correlation with question meaning and visual contents. Thus, to selectively uti...原创 2020-01-18 11:59:42 · 1156 阅读 · 2 评论 -
用于视觉问答的双线性超对角线融合模型《BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Multimodal representation learning is gaining more and more interest within the deep learning comm...原创 2020-01-13 18:27:20 · 1396 阅读 · 0 评论 -
注意上的注意:用于视觉问答的框架《Attention on Attention: Architectures for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Visual Question Answering (VQA) is an increasingly popular topic in deep learning research, requir...原创 2020-01-11 20:32:35 · 1018 阅读 · 0 评论 -
视觉问答系统的注意力机制分析《Knowing Where to Look? Analysis on Attention of Visual Question Answering System》
目录一、文献摘要介绍二、引言三、两个模型介绍四、两个模型的深度研究五、总结这是视觉问答论文阅读的系列笔记之一,本文有点长,请耐心阅读,定会有收货。如有不足,随时欢迎交流和探讨。一、文献摘要介绍Attention mechanisms have been widely used in Visual Question Answering (VQA) solutions...原创 2020-01-10 18:56:42 · 1199 阅读 · 0 评论 -
《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍A key solution to visual question answering (VQA) exists in how to fuse visual and language features extracted ...原创 2019-12-18 10:47:36 · 337 阅读 · 0 评论 -
用于视觉问答的深度注意神经张量网络模型《Deep Attention Neural Tensor Network for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍Visual question answering (VQA) has drawn great attention in cross-modal learning problems, which enables a mac...原创 2019-11-26 21:14:10 · 926 阅读 · 0 评论 -
Mask R-CNN 论文阅读笔记
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approac...原创 2019-11-23 21:52:19 · 3542 阅读 · 0 评论 -
《Entangled Transformer for Image Captioning》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍In image captioning, the typical attention mechanisms are arduous to identify the equivalent visual signals esp...原创 2019-11-20 12:33:24 · 2468 阅读 · 1 评论 -
用于图像描述的注意上的注意模型《Attention on Attention for Image Captioning》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍Attention mechanisms are widely used in current encoder/decoder frameworks of image captioning, where a weighte...原创 2019-11-17 23:21:10 · 7570 阅读 · 3 评论 -
自下而上和自上而下的注意力模型《Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering》
本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍Top-down visual attention mechanisms have been used extensively in image captioning and visual question answering (VQA) to enable deeper image unders...原创 2019-11-12 22:43:50 · 7342 阅读 · 0 评论 -
从R-CNN到Fast R-CNN再到Faster R-CNN的理解
目录1.区域卷积网络 R-CNN2.快速区域卷积网络 Fast R-CNN3.更快区域卷积网络 Faster R-CNN4.补充:Faster R-CNN细节详解与图像分类任务不同,目标检测需要从图像中检测并定位特定的多个目标(即物体或对象)。利用卷积网络进行目标检测的基本思路是先推荐候选区域,再利用卷积网络对候选区域分类。下面对这三个进行说明。1.区域卷积网络 R-CNN...原创 2019-11-12 22:40:49 · 993 阅读 · 0 评论 -
双线性注意力网络模型《Bilinear Attention Networks》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍Attention networks in multimodal learning provide an effificient way to utilize given visual information select...原创 2019-11-10 23:47:52 · 10095 阅读 · 0 评论 -
用于视觉问答的关系感知图注意力网络模型《Relation-Aware Graph Attention Network for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文下载地址一、文献摘要介绍In order to answer semantically-complicated questions about an image, a Visual Question Answering (VQA) model n...原创 2019-11-06 22:07:42 · 3498 阅读 · 5 评论 -
在深度学习代码中遇到的问题-shape[0]、shape[1]、shape[2]的区别
对于图像来说: img.shape[0]:图像的垂直尺寸(高度) img.shape[1]:图像的水平尺寸(宽度) img.shape[2]:图像的通道数举例来说,下面是一张300X534X3的图像,我们用代码,进行验证。 代码如下:import matplotlib.image as mpimg # mpimg ...原创 2019-11-06 12:26:39 · 70111 阅读 · 5 评论 -
用于视觉问答的多模态潜在交互网络模型《Multi-modality Latent Interaction Network for Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,另附:论文地址一、文献摘要介绍 Exploiting relationships between visual regions and question words have achieved great success in learning...原创 2019-11-05 13:33:12 · 1832 阅读 · 0 评论 -
用于鲁棒性视觉问答的循环一致性模型《Cycle-Consistency for Robust Visual Question Answering》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流 附: 论文下载一、文献摘要介绍 Despite signifificant progress in Visual Question Answering over the years, robustness of today’s VQA models ...原创 2019-11-04 14:12:29 · 1798 阅读 · 0 评论 -
用于视觉问答的具有模态内和模态间注意力的动态融合模型《Dynamic Fusion with Intra- and Inter-modality Attention Flow for VQA 》
目录一、文献摘要介绍二、网络框架介绍三、实验分析四、结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流,这篇文章和上篇文章,有着相同的构思,请参考上篇文章。 另附:本论文地址一、文献摘要介绍 Learning effective fusion of multi-modality features is at the heart of visual ...原创 2019-10-31 14:02:27 · 1481 阅读 · 0 评论 -
用于视觉问答的多模态关系推理的模型《Multimodal Relational Reasoning for Visual Question Answering》
目录文献摘要介绍网络框架介绍实验分析结论本文有点长,请耐心阅读,定会有收货。如有不足,欢迎交流 附: 本文的代码地址一、文献摘要介绍 Multimodal attentional networks are currently state-of-the-art models for Visual Question Answering ...原创 2019-10-29 16:43:00 · 1511 阅读 · 0 评论 -
深度学习综述(译)
本文参考了Recent Advances in Deep Learning: An Overview,并简单的翻译了一下,供自己学习使用,该论文列举了最近几年深度学习的重要研究成果,从方法、架构、正则化以及技术方面进行了概述,是值得学习的一篇文章。 目录摘要引言相关研究近期进展深度学习的方法深度神经网络深度生...原创 2019-10-27 13:17:43 · 5650 阅读 · 0 评论 -
深度学习平台Anaconda+PyCharm安装的详细教程,附带安装tensorflow
目录Anaconda的安装PcCharm的安装用Anaconda管理PcCharm中的Python1.Anaconda的安装根据自己的电脑版本进行下载,附:下载地址(1)进入官网点击Download进行下载。进入到这个界面,我选择的是Windows平台下面的64位,然后点击进行下载,可以根据自己的选择进行下载。(2)开始安装双击下载好的Anaconda,进入下面这个界面,点...原创 2019-10-24 00:15:39 · 2742 阅读 · 3 评论 -
对pytorch中nn.Linear()的理解
本文主要讲述最简单的线性回归函数:在pytorch的实现,主要包括神经网络实现的基本步骤和nn.Linear的源码解读。1. nn.Linear 源码解读先看一下Linear类的实现:源码地址Linear继承于nn.Module,内部函数主要有**init**,reset_parameters, forward和 extra_repr函数...原创 2019-10-23 18:26:59 · 7209 阅读 · 0 评论 -
最详细的PyTorch的安装步骤
最近做计算机视觉学习,读项目的时候,需要配置PyTorch,遇到了一点问题,下面记录一下,主要分为如下几个步骤:1.查看自己的GPU版本(1)如果要查看显卡详细信息,我们首先根据自己电脑的版本,有选择的下载GPU-Z软件,双击打开,点击Yes进行安装。到这步选择Next选择安装路径,这里我安装到默认C盘不做更改,然后点击Install,就好了。直到安装完成,close关掉,此时就安...原创 2019-10-22 23:14:42 · 9458 阅读 · 1 评论 -
pytorch中的squeeze()和unsqueeze()函数使用
1. torch.squeeze()对于tensor变量进行维度压缩,去除维数为1的的维度。例如一矩阵维度为A * 1 * B * C * 1 * D,通过squeeze()返回向量的维度为A * B * C * D。squeeze(a),表示将a的维数位1的维度删掉,squeeze(a,N)表示,如果第N维维数为1,则压缩去掉,否则a矩阵不变这里没有维数为1的的维度,所以保持不变2. ...原创 2019-10-21 22:07:01 · 1566 阅读 · 0 评论 -
神经网络 mask的作用
对句子填补之后, 就要输入到Embedding层中, 将token由id转换成对应的vector. 我们希望被填补的0值在后续的计算中不产生影响, 就可以在初始化Embedding层时指定参数mask_zero为True, 意思就是屏蔽0值, 即填补的0值。 在Embedding...原创 2019-10-21 21:13:19 · 7983 阅读 · 0 评论 -
用于视觉问答的深度模块化共同注意网络 《Deep Modular Co-Attention Networks for Visual Question Answering》
Visual Question Answering (VQA) requires a finegrained and simultaneous understanding of both the visual content of images and the textual content of questions. Therefore, designing an effective ‘co-attention’ model to associate key words in questions with原创 2019-10-21 12:33:49 · 6011 阅读 · 6 评论 -
巧用PyTorch中的torch.backends.cudnn.benchmark减少训练时间
大家在训练深度学习模型的时候,经常会使用 GPU 来加速网络的训练。但是说起 torch.backends.cudnn.benchmark 这个 GPU 相关的 flag,可能有人会感到比较陌生。在一般场景下,只要简单地在 PyTorch 程序开头将其值设置为 True,就可以大大提升卷积神经网络的运行速度。既然如此神奇,为什么 PyTorch 不将其默认设置为 True?它的适用场景是什么?为什...转载 2019-10-20 09:01:20 · 5546 阅读 · 2 评论 -
pytorch中的torch.manual_seed()
torch.manual_seed(args.seed) #为CPU设置种子用于生成随机数,以使得结果是确定的if args.cuda:torch.cuda.manual_seed(args.seed)#为当前GPU设置随机种子;#如果使用多个GPU,应该使用torch.cuda.manual_seed_all()为所有的GPU设置种子。...原创 2019-10-20 08:22:28 · 18924 阅读 · 1 评论