点击进入专栏:
《人工智能专栏》 Python与Python | 机器学习 | 深度学习 | 目标检测 | YOLOv5及其改进 | YOLOv8及其改进 | 关键知识点 | 各种工具教程
文章目录
- 理论
-
- 一、背景介绍
- 二、论文的introduction
- 三、论文的Related Works
- 四、论文的模型细节
-
- 4.1. Overall Architecture
- 4.2. Super Token Attention
-
- 4.2.1.Super Token Sampling (STS)
- 4.2.2.Token Upsampling (TU)
- 引入Super Token Sampling ViT
-
- 首先我们将源代码添加到 `common.py` 文件中
- `yolov5-STSViT.yaml`
理论
一、背景介绍
这篇论文是CVPR2023的一篇论文,主要工作是对于Vision Transformer的自注意力机制进行了魔改。我感觉这篇文章或许对我的工作有帮助,因此,今天精读一下。
论文下载地址:[2211.11167] Vision Transformer with Super Token Sampling (arxiv.org)
代码开源仓库:hhb072/STViT (github.com)
在论文中,魔改前的机制似乎被叫做vanilla。
二、论文的introduction
Transformer被demonstrated在很多任务中表现出色,dominate了NLP,