目录 introduction Overview 区域检测部分 区域池化部分 Sentence RNN: Word RNN: Dateset introduction 因为一张图像所包含的信息很丰富,一个简短的句子不足以描述整个场景,虽然一种新的稠密捕获(dense capture)方法,把一张图分成几个部分,然后分别对其进行描述,可以潜在地以更精细的细节来描述图像,但它不能为图像产生连贯的故事,因此这篇论文把它们以具有空间意义的方式连接起来生成文字段落,如下图所示: