论文名称:《Contextual Transformer Networks for Visual Recognition》
论文地址:https://arxiv.org/pdf/2107.12292.pdf
代码地址:https://github.com/JDAI-CV/CoTNet
具备自注意力机制的 Transformer
已经引领了自然语言处理领域的革命,并且最近也在许多计算机视觉任务中以出色的结果启发了类似 Transformer
风格的架构设计的出现。然而,大多数现有设计直接在二维特征图上使用自注意力来基于每个空间位置的孤立查询和键对获取注意力矩阵,但却未充分利用相邻键之间的丰富上下文信息。在这项工作中,我们设计了一种新颖的 Transformer
风格模块,即上下文 Transformer (CoT)
块,用于视觉识别。这种设计充分利用了输入键之间的上下文信息,以引导动态注意