YOLOv5改进系列(十八) 本文(1.2万字) | 引入STSViT |

最新推荐文章于 2024-07-09 20:07:16 发布

小酒馆燃着灯

最新推荐文章于 2024-07-09 20:07:16 发布

阅读量904

点赞数 23

文章标签： YOLO 深度学习人工智能 STSViT

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44302770/article/details/135276094

版权

人工智能专栏计划专栏收录该内容

141 篇文章 7 订阅

已下架不支持订阅

点击进入专栏：
《人工智能专栏》 Python与Python | 机器学习 | 深度学习 | 目标检测 | YOLOv5及其改进 | YOLOv8及其改进 | 关键知识点 | 各种工具教程

文章目录

理论
- 一、背景介绍
- 二、论文的introduction
- 三、论文的Related Works
- 四、论文的模型细节
- - 4.1. Overall Architecture
  - 4.2. Super Token Attention
  - - 4.2.1.Super Token Sampling (STS)
    - 4.2.2.Token Upsampling (TU)
引入Super Token Sampling ViT
- 首先我们将源代码添加到 `common.py` 文件中
- `yolov5-STSViT.yaml`

一些解读

理论

一、背景介绍

这篇论文是CVPR2023的一篇论文，主要工作是对于Vision Transformer的自注意力机制进行了魔改。我感觉这篇文章或许对我的工作有帮助，因此，今天精读一下。

论文下载地址：[2211.11167] Vision Transformer with Super Token Sampling (arxiv.org)

代码开源仓库：hhb072/STViT (github.com)

在论文中，魔改前的机制似乎被叫做vanilla。

二、论文的introduction

Transformer被demonstrated在很多任务中表现出色，dominate了NLP，

了解本专栏

小酒馆燃着灯

关注

23
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
0
评论
YOLOv5改进系列(十八) 本文(1.2万字) | 引入STSViT |

这篇论文是CVPR2023的一篇论文，主要工作是对于Vision Transformer的自注意力机制进行了魔改。我感觉这篇文章或许对我的工作有帮助，因此，今天精读一下。论文下载地址：[在论文中，魔改前的机制似乎被叫做vanilla。
复制链接

扫一扫

专栏目录

已下架不支持订阅

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小酒馆燃着灯 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。