论文笔记：Dual-Level Collaborative Transformer for Image Captioning

最新推荐文章于 2023-01-05 21:13:58 发布

SCUT_JQ

最新推荐文章于 2023-01-05 21:13:58 发布

阅读量402

点赞数 1

文章标签： transformer 计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44140339/article/details/121779834

版权

现有的基于图像区域特征的图像字幕方法的不足是：缺乏上下文信息和细粒度细节，而这恰恰是传统网格特征的优点。

本文使用这两种特征（区域特征和网格特征）作为视觉输入，引入一种新的双层协同Transformer网络(DLCT)以实现区域和网格特征在图像描述中的互补优势。在DLCT中，首先通过一个新的Dual-Way Self Attention(DWSA)处理两类特征源，以挖掘它们的内在属性，引入了一个综合关系注意模块(Comprehensive Relation Attention，CRA)来嵌入几何信息，此外还提出了一个位置约束交叉注意模块(Locality-Constrained Cross Attention，LCCA)来解决这两个特征直接融合引起的语义噪声，其中构造了一个几何对齐图来精确对齐和增强区域和网格特征。

本文的贡献：
1、提出了一种新的双层协同Transformer网络(DLCT)，实现了区域特征和网格特征的互补性
2、提出了位置约束交叉注意(LCCA)来解决两个特征源直接融合引起的语义噪声问题。利用所构建的几何对齐图，LCCA 不仅能准确实现不同源特征之间的交互，还能通过交叉注意融合增强各种特征。
3、首次尝试探索图像描述的绝对位置信息。通过集成绝对位置信息和相对位置信息，进一步改进了层内和层间关系的建模。

贴大佬详解：
【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文笔记：Dual-Level Collaborative Transformer for Image Captioning

现有的基于图像区域特征的图像字幕方法的不足是：缺乏上下文信息和细粒度细节，而这恰恰是传统网格特征的优点。本文使用这两种特征（区域特征和网格特征）作为视觉输入，引入一种新的双层协同Transformer网络(DLCT)以实现区域和网格特征在图像描述中的互补优势。在DLCT中，首先通过一个新的Dual-Way Self Attention(DWSA)处理两类特征源，以挖掘它们的内在属性，引入了一个综合关系注意模块(Comprehensive Relation Attention，CRA)来嵌入几何信息，此外还
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。