论文笔记:Dual-Level Collaborative Transformer for Image Captioning
现有的基于图像区域特征的图像字幕方法的不足是:缺乏上下文信息和细粒度细节,而这恰恰是传统网格特征的优点。本文使用这两种特征(区域特征和网格特征)作为视觉输入,引入一种新的双层协同Transformer网络(DLCT)以实现区域和网格特征在图像描述中的互补优势。在DLCT中,首先通过一个新的Dual-Way Self Attention(DWSA)处理两类特征源,以挖掘它们的内在属性,引入了一个综合关系注意模块(Comprehensive Relation Attention,CRA)来嵌入几何信息,此外还




