笔记“A Hierarchical Approach for Generating Descriptive Image Paragraphs“

本文提出了一种层次递归神经网络(HRNN)结构,结合区域检测和池化技术,用于生成图像的连贯描述段落。首先通过CNN和RPN进行目标检测,然后对检测到的区域进行编码并聚合,接着输入Sentence RNN确定句子数量并生成主题向量,最后Word RNN利用主题向量生成句子。实验在Visual Genome数据集上进行。
摘要由CSDN通过智能技术生成

introduction

因为一张图像所包含的信息很丰富,一个简短的句子不足以描述整个场景,虽然一种新的稠密捕获(dense capture)方法,把一张图分成几个部分,然后分别对其进行描述,可以潜在地以更精细的细节来描述图像,但它不能为图像产生连贯的故事,因此这篇论文把它们以具有空间意义的方式连接起来生成文字段落,如下图所示:
在这里插入图片描述

Overview

在这里插入图片描述
工作流程为:

  1. 3×H×W的图片通过CNN和RPN检测目标和感兴趣的区域,将每一个感兴趣的区域encoder为特征;
  2. 聚合这些区域特征,生成一个池化的向量;
  3. 将这个特征向量作为输入,通过一个由Sentence RNN和Word RNN两个层次组成的层次递归神经网络;
  4. Sentence RNN 决定产生句子的个数,并为每一个句子生成主题向量;
  5. Word RNN 使用每个主题向量生成每一个句子。

区域检测部分

  1. Resize改变图片尺寸
  2. 通过CNN获取feature maps
  3. RPN处理产生的feature maps
  4. re
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值