自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 论文笔记:Dual-Level Collaborative Transformer for Image Captioning

现有的基于图像区域特征的图像字幕方法的不足是:缺乏上下文信息和细粒度细节,而这恰恰是传统网格特征的优点。本文使用这两种特征(区域特征和网格特征)作为视觉输入,引入一种新的双层协同Transformer网络(DLCT)以实现区域和网格特征在图像描述中的互补优势。在DLCT中,首先通过一个新的Dual-Way Self Attention(DWSA)处理两类特征源,以挖掘它们的内在属性,引入了一个综合关系注意模块(Comprehensive Relation Attention,CRA)来嵌入几何信息,此外还

2021-12-08 11:23:03 396

原创 论文笔记:Image Captioning with Semantic Attention

论文地址论文代码地址现有的图像描述方法要么是自顶向下,从图像的要点开始并将其转换为单词,这类方法很难注意细节;要么是自底向上,提出描述图像各个方面的单词,然后将它们组合起来,这类方法从独立的方面形成句子,缺少端到端形式的训练。人们描述图像时倾向于谈论图像中语义上更重要的区域或目标对象, 因此本文提出了一种新算法,通过语义注意模型将两种方法结合起来,该算法学习选择性地关注语义概念提议(semantic concept proposals)并将它们融合到循环神经网络的隐藏状态和输出中,选择和融合形成了连接自

2021-12-07 15:53:42 1864

原创 论文笔记:Unified Vision-Language Pre-Training for Image Captioning and VQA

论文地址代码本文提出了一个统一的视觉语言预训练(VLP)模型。 该模型的统一之处在于:(1)它可以针对视觉语言生成(例如图像字幕)或理解(例如视觉问答)任务进行微调;(2)它使用共享的多层Transformer用于编码和解码的网络,这与许多现有使用单独的模型实现编码器和解码器的方法不同。Unified VLP 模型在大量图像文本对上使用两个无监督学习目标任务进行预训练:双向和序列到序列 (seq2seq) 掩蔽视觉语言预测。通过对共享Transformer网络的特定自注意力掩码进行控制,使得两个任

2021-12-07 11:19:21 2064

原创 论文笔记:VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning

视觉词汇预训练(visual vocabulary pre-training,简称VIVO)技术,即通过弱监督学习方法对图像描述模型进行预训练,其中包括两个阶段:预训练和微调推断。基于大型Transformer神经网络,VIVO 在没有文本标签的数据集Open Images上对文本和图像的多模态进行预训练,令模型学会识别图像中的常见物体和生物并标记它们,并建立起将文本和图片联系起来的视觉词表。视觉图表就是一个图像和文本的联合特征空间,语义相近的词会聚类在一起,例如金毛和牧羊犬、手风琴和乐器等。建好词表后

2021-11-30 19:29:59 3396

原创 论文笔记:Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks

在图像-文本对上学习跨模态表示的大规模预训练方法在视觉-语言任务中越来越流行,现有方法简单地将图像区域特征和文本特征连接起来作为输入,并借助自注意力机制以蛮力方式学习图像区域和文本之间的语义对齐,由于图像区域和文本之间缺乏明确的对齐信息,导致对齐建模属于弱监督学习任务。在本文中,提出了一种新的学习方法 Oscar,它使用在图像中检测到的对象标签作为锚点,来对齐共享语义空间中的图像和语言模态,大大简化了对齐学习,模型的目标是观察到图像中可以通过现代目标检测器准确检测到的显着对象,并且这些对象经常在配对文本中

2021-11-29 20:02:55 2131

原创 论文笔记:Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering

论文链接在该论文中,自下而上的机制(基于 Faster R-CNN)提出了图像区域,每个区域都有一个相关的特征向量,而自上而下的机制决定了这些特征向量的权重3.1 节,描述了实现自下而上注意模型的方法;3.2 节,概述了图像字幕模型的架构;3.3 节,概述了 VQA 模型。对于自上而下的注意力组件,两个模型(字幕模型和VQA模型)都使用简单的一次性注意力机制,而不是最近模型都使用的更复杂的方案,例如堆叠、多头或双向注意力 [47, 16, 20, 28 ] 等。自下而上的注意力模型本文根据边界框定义

2021-11-28 17:19:24 1004

原创 浏览器输入www.baidu.com之后,发生了什么?

1、将域名www.baidu.com解析为IP地址:解析IP地址的过程依次经过了:浏览器缓存、系统缓存、hosts文件、路由器缓存、递归搜索根域名服务器。浏览器缓存: 每个浏览器都会有一个DNS缓存,记录了一些常用域名和IP地址的对应关系(有过期时间),当在浏览器的DNS缓存中没有找到对应关系时,会查询系统缓存。系统缓存: 浏览器会进行一个系统调用(Windows里面是gethostbyname),检查本机的C:\Windows\System32\drivers\etc\hosts配置文件下有

2021-04-19 17:27:26 10684

原创 python:print函数讲解

hello world!print()函数在python中,print() 函数是最常见的一个函数,常常用于数据的额输出。需要注意的是:print 在 Python3.x 版本中是一个内置函数,但在 Python2.x 版本则不是一个函数,只是一个关键字。1.函数语法:print(*objects, sep=' ', end='\n', file=sys.stdout)参数解释:objects – 复数,表示可以一次输出多个对象。输出多个对象时,需要用 , 分隔。sep – 用来间隔多个对

2020-08-07 22:23:46 996 2

原创 python:introduction

python from 0 to 1 ——(introduction)近几年,python的流行程度不言而喻,我们先来看看下面这张图:上图是截至2020年8月编程语言排行榜,可以看到python仍然保持在前三。那么python为什么这么火,它可以应用在哪些领域呢?python该如何自学?学会python可以应聘哪些岗位?相信学完python你会有自己的答案的!下面是一张2020年的python学习路线图,大家可以先大致熟悉一下。python教程推荐从编程出发的python学习网站:learnp

2020-08-07 20:45:22 317 1

原创 高级软件体系结构——期末篇

第一章根据自己的经验,谈谈对软件危机的看法。软件危机的表现:软件成本日益增长开发进度难以控制软件质量差软件维护困难软件危机的原因:用户需求不明确缺乏正确的理论指导软件规模越来越大软件复杂度越来越高人们面临的不光是技术问题,更重要的是管理问题。管理不善必然导致失败 。要提高软件开发效率,提高软件产品质量,必须采用工程化的开发方法与工业化的生产技术。在技术上,应该采用基于重用的软件生产技术;管理上,应该采用多维的工程管理模式。就项目管理方面而言,软件重用项目与非重用项目有

2020-08-07 18:52:27 5211 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除