SCUT_JQ-CSDN博客

原创论文笔记：Dual-Level Collaborative Transformer for Image Captioning

现有的基于图像区域特征的图像字幕方法的不足是：缺乏上下文信息和细粒度细节，而这恰恰是传统网格特征的优点。本文使用这两种特征（区域特征和网格特征）作为视觉输入，引入一种新的双层协同Transformer网络(DLCT)以实现区域和网格特征在图像描述中的互补优势。在DLCT中，首先通过一个新的Dual-Way Self Attention(DWSA)处理两类特征源，以挖掘它们的内在属性，引入了一个综合关系注意模块(Comprehensive Relation Attention，CRA)来嵌入几何信息，此外还

2021-12-08 11:23:03 416

原创论文笔记：Image Captioning with Semantic Attention

论文地址论文代码地址现有的图像描述方法要么是自顶向下，从图像的要点开始并将其转换为单词，这类方法很难注意细节；要么是自底向上，提出描述图像各个方面的单词，然后将它们组合起来，这类方法从独立的方面形成句子，缺少端到端形式的训练。人们描述图像时倾向于谈论图像中语义上更重要的区域或目标对象，因此本文提出了一种新算法，通过语义注意模型将两种方法结合起来，该算法学习选择性地关注语义概念提议（semantic concept proposals）并将它们融合到循环神经网络的隐藏状态和输出中，选择和融合形成了连接自

2021-12-07 15:53:42 1873

原创论文笔记：Unified Vision-Language Pre-Training for Image Captioning and VQA

论文地址代码本文提出了一个统一的视觉语言预训练（VLP）模型。该模型的统一之处在于：（1）它可以针对视觉语言生成（例如图像字幕）或理解（例如视觉问答）任务进行微调；（2）它使用共享的多层Transformer用于编码和解码的网络，这与许多现有使用单独的模型实现编码器和解码器的方法不同。Unified VLP 模型在大量图像文本对上使用两个无监督学习目标任务进行预训练：双向和序列到序列 (seq2seq) 掩蔽视觉语言预测。通过对共享Transformer网络的特定自注意力掩码进行控制，使得两个任

2021-12-07 11:19:21 2088

原创论文笔记：VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

视觉词汇预训练（visual vocabulary pre-training，简称VIVO）技术，即通过弱监督学习方法对图像描述模型进行预训练，其中包括两个阶段：预训练和微调推断。基于大型Transformer神经网络，VIVO 在没有文本标签的数据集Open Images上对文本和图像的多模态进行预训练，令模型学会识别图像中的常见物体和生物并标记它们，并建立起将文本和图片联系起来的视觉词表。视觉图表就是一个图像和文本的联合特征空间，语义相近的词会聚类在一起，例如金毛和牧羊犬、手风琴和乐器等。建好词表后

2021-11-30 19:29:59 3415

原创论文笔记：Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

在图像-文本对上学习跨模态表示的大规模预训练方法在视觉-语言任务中越来越流行，现有方法简单地将图像区域特征和文本特征连接起来作为输入，并借助自注意力机制以蛮力方式学习图像区域和文本之间的语义对齐，由于图像区域和文本之间缺乏明确的对齐信息，导致对齐建模属于弱监督学习任务。在本文中，提出了一种新的学习方法 Oscar，它使用在图像中检测到的对象标签作为锚点，来对齐共享语义空间中的图像和语言模态，大大简化了对齐学习，模型的目标是观察到图像中可以通过现代目标检测器准确检测到的显着对象，并且这些对象经常在配对文本中

2021-11-29 20:02:55 2208

原创论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文链接在该论文中，自下而上的机制（基于 Faster R-CNN）提出了图像区域，每个区域都有一个相关的特征向量，而自上而下的机制决定了这些特征向量的权重3.1 节，描述了实现自下而上注意模型的方法；3.2 节，概述了图像字幕模型的架构；3.3 节，概述了 VQA 模型。对于自上而下的注意力组件，两个模型（字幕模型和VQA模型）都使用简单的一次性注意力机制，而不是最近模型都使用的更复杂的方案，例如堆叠、多头或双向注意力 [47, 16, 20, 28 ] 等。自下而上的注意力模型本文根据边界框定义

2021-11-28 17:19:24 1018

weixin_44140339的博客

原创论文笔记：Dual-Level Collaborative Transformer for Image Captioning

原创论文笔记：Image Captioning with Semantic Attention

原创论文笔记：Unified Vision-Language Pre-Training for Image Captioning and VQA

原创论文笔记：VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

原创论文笔记：Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

原创论文笔记：Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

原创浏览器输入www.baidu.com之后，发生了什么？

原创 python：print函数讲解

原创 python：introduction

原创高级软件体系结构——期末篇

空空如也

空空如也