PAPER
Joey Twan
这个作者很懒,什么都没留下…
展开
-
论文笔记:Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs
背景:大多数图像字幕模型不能主动根据用户的意图来生成不同的描述。创新点:我们提出了抽象场景图(ASG)结构来表示细粒度级别的用户意图,并控制生成的描述对象和细节。在本工作中,我们提出了一种更细粒度的控制信号-抽象场景图(ASG),以表示可控图像标题生成的不同意图。如图1所示,ASG为一个有向图,由三种抽象节点组成,分别是对象、属性和关系,而每个节点不需要具体的语义标签。因此,这种图形结构很容易手动或自动获得,因为它不需要语义识别。更重要的是,ASG能够反映用户的意图是描述什么和如何详细描述。整原创 2020-07-12 12:35:40 · 422 阅读 · 0 评论 -
论文笔记:X-Linear Attention Networks for Image Captioning
创新点:我们介绍以一种统一的注意力块—X线性注意块,它完全采用双线性池来选择性地利用视觉信息或执行多模态推理。技术上,X线性注意力块同时利用空间和信道双线性注意分布来捕获输入单模态或多模态之间的二阶相互作用特征。当我们回顾传统的注意力机制时,可以发现它往往利用线性融合来进行跨模态的特征交互学习,所以其本质只挖掘了不同模态间一阶的特征交互,大大限制了注意力机制在视觉与语言这一复杂的跨模态内容推理任务中的作用。针对这个问题,我们在最新的 CVPR 2020 工作 X-LAN 中打造了一个能实现高阶特征交原创 2020-07-12 12:33:24 · 3089 阅读 · 0 评论 -
论文笔记:Show, Edit and Tell : A Framework for Editing Image Captions
背 景:对现有字幕进行编辑更容易些,编辑字幕不需要关注现有信息,使它只需要专注于固定细节(例 如重复的单词)就可以。创新点:本文提出了一种基于现有字幕迭代自适应细化的图像字幕处理方法。我们的模型由两个子模块组成:EditNet:具有自适应复制机制(Copy-LSTM)和选择性复制存储器注意机制(SCMA)的语言模块。一个编辑 现有图像标题的框架,由一个带有选择性复制存储器注意(SCMA)机制的复制LSTM组成。DCNet:一种基于LSTM的去噪自动编码器,它学习去噪以前的标原创 2020-07-11 14:45:59 · 777 阅读 · 3 评论 -
论文笔记:Meshed-Memory_Transformer_for_Image_Captioning_CVPR2020
背景:transformer-based architectures 没有充分利用到多模型图像字幕。创新点:我们提出了一个新型fully-attention图像字幕算法,对于image caption我们提出了一个带有内存的 网格transformer。这个结构优化了图像编码器和语言生成步骤,它学习集成先验知识的图像区域之 间关系的多级表示,并在解码阶段使用网格状连接来利用低和高级特征。结论:我们的模型包含了一种区域编码方法,它通过内存向量和利用先验知识编码和解码模块之间的网状 连接。 值得注意的原创 2020-07-11 01:38:53 · 2768 阅读 · 0 评论