即插即用篇 | YOLOv8 引入 Contextual Trans 注意力机制 | 《Contextual Transformer Networks for Visual Recognition》

114 篇文章 938 订阅 ¥299.90 ¥399.90
本文介绍了《Contextual Transformer Networks for Visual Recognition》论文中的Contextual Trans注意力机制,该机制用于增强视觉表示能力。通过上下文编码和动态多头注意力矩阵,提升YOLOv8的性能。提供了源代码、添加方式以及模型yaml文件,展示了如何将此模块整合到YOLOv8中。
摘要由CSDN通过智能技术生成

在这里插入图片描述

论文名称:《Contextual Transformer Networks for Visual Recognition》

论文地址:https://arxiv.org/pdf/2107.12292.pdf

代码地址:https://github.com/JDAI-CV/CoTNet



1 原理

具备自注意力机制的 Transformer 已经引领了自然语言处理领域的革命,并且最近也在许多计算机视觉任务中以出色的结果启发了类似 Transformer 风格的架构设计的出现。然而,大多数现有设计直接在二维特征图上使用自注意力来基于每个空间位置的孤立查询和键对获取注意力矩阵,但却未充分利用相邻键之间的丰富上下文信息。在这项工作中,我们设计了一种新颖的 Transformer 风格模块,即上下文 Transformer (CoT)块,用于视觉识别。这种设计充分利用了输入键之间的上下文信息,以引导动态注意力矩阵的学习,从而增强了视觉表示的能力。在技术上,CoT块首先通过3×3卷积对输入键进行上下文编码,从而得到输入的静态上下文表示。我们进一步将编码的键与输入查询连接起来,

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

迪菲赫尔曼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值