introduction
因为一张图像所包含的信息很丰富,一个简短的句子不足以描述整个场景,虽然一种新的稠密捕获(dense capture)方法,把一张图分成几个部分,然后分别对其进行描述,可以潜在地以更精细的细节来描述图像,但它不能为图像产生连贯的故事,因此这篇论文把它们以具有空间意义的方式连接起来生成文字段落,如下图所示:
Overview
工作流程为:
- 3×H×W的图片通过CNN和RPN检测目标和感兴趣的区域,将每一个感兴趣的区域encoder为特征;
- 聚合这些区域特征,生成一个池化的向量;
- 将这个特征向量作为输入,通过一个由Sentence RNN和Word RNN两个层次组成的层次递归神经网络;
- Sentence RNN 决定产生句子的个数,并为每一个句子生成主题向量;
- Word RNN 使用每个主题向量生成每一个句子。
区域检测部分
- Resize改变图片尺寸
- 通过CNN获取feature maps
- RPN处理产生的feature maps
- re