YOLOv5、YOLOv8改进：CotNet Transformer

陈子迩

于 2023-09-26 06:00:00 发布

阅读量655

点赞数

分类专栏： yolov5/7/8/9系列独家改进 YOLOv9/v10独家改进，每周持续更新文章标签： YOLO transformer 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45303602/article/details/133283042

版权

yolov5/7/8/9系列独家改进同时被 2 个专栏收录

61 篇文章 22 订阅 ¥49.90 ¥99.00

订阅专栏

YOLOv9/v10独家改进，每周持续更新

21 篇文章 0 订阅 ¥49.90 ¥99.00

订阅专栏

1.简介

京东AI研究院提出的一种新的注意力结构。将CoT Block代替了ResNet结构中的3x3卷积，在分类检测分割等任务效果都出类拔萃

论文地址：https://arxiv.org/pdf/2107.12292.pdf

源代码地址：https://github.com/JDAI-CV/CoTNet

具有自注意力的Transformer引发了自然语言处理领域的革命，最近还激发了Transformer式架构设计的出现，并在众多计算机视觉任务中取得了具有竞争力的结果。

大多数现有设计直接在2D特征图上使用自注意力来获得基于每个空间位置的独立查询和键对的注意力矩阵，但未充分利用相邻键之间的丰富上下文。在今天分享的工作中，研究者设计了一个新颖的Transformer风格的模块，即Contextual Transformer (CoT)块，用于视觉识别。这种设计充分利用输入键之间的上下文信息来指导动态注意力矩阵的学习，从而增强视觉表示能力。从技术上讲，CoT块首先通过3×3卷积对输入键进行上下文编码，从而产生输入的静态上下文表示。

上图a是传统的self-attention仅利用孤立的查询-键对来测量注意力矩阵，但未充分利用键之间的丰富上下文

了解本专栏

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
1
评论
YOLOv5、YOLOv8改进：CotNet Transformer

京东AI研究院提出的一种新的注意力结构。将CoT Block代替了ResNet结构中的3x3卷积，在分类检测分割等任务效果都出类拔萃
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

陈子迩 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。