笔记“A Hierarchical Approach for Generating Descriptive Image Paragraphs“

最新推荐文章于 2023-03-16 15:49:43 发布

放开我的鱿鱼

最新推荐文章于 2023-03-16 15:49:43 发布

阅读量334

点赞数 2

分类专栏：论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44906881/article/details/115578999

版权

本文提出了一种层次递归神经网络（HRNN）结构，结合区域检测和池化技术，用于生成图像的连贯描述段落。首先通过CNN和RPN进行目标检测，然后对检测到的区域进行编码并聚合，接着输入Sentence RNN确定句子数量并生成主题向量，最后Word RNN利用主题向量生成句子。实验在Visual Genome数据集上进行。

摘要由CSDN通过智能技术生成

目录

introduction
Overview
Dateset

introduction

因为一张图像所包含的信息很丰富，一个简短的句子不足以描述整个场景，虽然一种新的稠密捕获(dense capture)方法，把一张图分成几个部分，然后分别对其进行描述，可以潜在地以更精细的细节来描述图像，但它不能为图像产生连贯的故事，因此这篇论文把它们以具有空间意义的方式连接起来生成文字段落，如下图所示：
在这里插入图片描述

Overview

在这里插入图片描述
工作流程为：

3×H×W的图片通过CNN和RPN检测目标和感兴趣的区域，将每一个感兴趣的区域encoder为特征；
聚合这些区域特征，生成一个池化的向量；
将这个特征向量作为输入，通过一个由Sentence RNN和Word RNN两个层次组成的层次递归神经网络；
Sentence RNN 决定产生句子的个数，并为每一个句子生成主题向量；
Word RNN 使用每个主题向量生成每一个句子。

区域检测部分

Resize改变图片尺寸
通过CNN获取feature maps
RPN处理产生的feature maps
re

最低0.47元/天解锁文章

放开我的鱿鱼

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。