论文解析[10] Contextual Transformer Networks for Visual Recognition

最新推荐文章于 2023-12-02 09:13:26 发布

默_silence

最新推荐文章于 2023-12-02 09:13:26 发布

阅读量1.2k

点赞数

分类专栏： # 论文阅读文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43772166/article/details/128351321

版权

发表时间：2021
论文地址：https://arxiv.org/abs/2107.12292

文章目录

摘要
3 方法
- 3.1. Multi-head Self-attention in Vision Backbones
- 3.2. Contextual Transformer Block
5 结论

摘要

带有自注意力的Transformer导致了 nlp 领域的革命，也启发了在计算机视觉任务上。大多数存在的设计直接使用2D特征图来获得注意力矩阵，基于每个位置独立的queries和keys，使得相邻keys之间丰富的上下文信息利用不足。

在这项工作中，我们设计了一个新颖的Transformer风格的模块，即Contextual Transformer (CoT) block，用于视觉检测。这样的设计充分利用了输入keys之间的上下文信息来指导动态注意力矩阵的学习和增强视觉表现能力。在技术上，CoT块通过一个3×3卷积进行上下文编码，得到了输入图像的静态上下文表示。进一步连接编码后的keys和输入的queries来学习动态的多头注意力矩阵。学到的注意力针具乘以输入values来实现输入的动态上下文表示。静态和动态上下文表示的融合作为输出。

我们的CoT块可以替代ResNet结构中的每个3×3卷积，得到一个名为Contextual Transformer Networks (CoT-Net) 的网络

3 方法

首先提供了一个传统自注意力的回顾。接下来是contextual transformer（CoT）。

将整个深度结构中的3×3卷积替换成CoT块，CoTNet和CoTNeXt来源于ResNet和ResNeXt。

3.1. Multi-head Self-attention in Vision Backbones

在这里插入图片描述

一般的多头自注意力公式，给定一个2D的特征图X，大小为H×W×C，通过嵌入矩阵（ $W_q,W_k,W_v$ ）将X转换为querirs，keys，values：

$Q=XW_q,K=XW_k,V=XW_v$

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
论文解析[10] Contextual Transformer Networks for Visual Recognition

论文解析[10] Contextual Transformer Networks for Visual Recognition在这项工作中，我们设计了一个新颖的Transformer风格的模块，即Contextual Transformer (CoT) block，用于视觉检测。这样的设计充分利用了输入keys之间的上下文信息来指导动态注意力矩阵的学习和增强视觉表现能力。在技术上，CoT块通过一个3×3卷
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。