高效视觉Transformer的综述：算法，技术和性能基准

最新推荐文章于 2024-12-03 19:36:35 发布

三谷秋水

最新推荐文章于 2024-12-03 19:36:35 发布

阅读量781

点赞数 24

分类专栏：大模型计算机视觉机器学习文章标签： transformer 算法深度学习语言模型计算机视觉

本文链接：https://blog.csdn.net/yorkhunter/article/details/139134630

版权

大模型同时被 3 个专栏收录

735 篇文章

订阅专栏

机器学习

545 篇文章

订阅专栏

计算机视觉

447 篇文章

订阅专栏

23年9月来自悉尼大学的综述论文“A survey on efficient vision transformers: algorithms, techniques, and performance benchmarking“。

视觉Transformer（ViT）架构正变得越来越流行，并被广泛用于处理计算机视觉应用。它们的主要特征是通过自注意机制提取全局信息的能力，优于早期的卷积神经网络。然而，ViT的部署和性能随着其规模、可训练参数量和操作而稳步增长。此外，自注意的计算和内存成本，随图像分辨率的二次方增加。一般来说，由于许多硬件和环境限制，如处理和计算能力，在现实世界的应用中使用这些架构是具有挑战性的。因此，本综述调查了确保次优估计性能的最高效方法。更详细地说，分析四个有效类：紧凑架构、修剪、知识蒸馏和量化策略。此外，还引入了一种称为“高效错误率（Efficient Error Rate）”的新度量，规范和比较在推理时影响硬件设备的模型特征，如参数量、比特数、FLOPs和模型大小。总之，本文首先从数学上定义了使视觉Transformer高效的策略，描述和讨论了最先进的方法，并分析了它们在不同应用场景下的性能。最后，还讨论了开放的挑战和有前景的研究方向。

本文划分ViT架构为四个类别，采用如下的方法论：
紧凑架构（CA）-分析专门为降低自注意的计算成本而开发的解决方案，保证ViT对输入特征的全局理解，同时降低（通常是注意线性化）此类架构的计算成本。
修剪（P）-重点关注旨在减少神经元数量和ViT模型连接的策略，保持高精度，同时避免模型过度参数化和减少计算运算（乘法）的数量。
知识蒸馏（KD）-分析学习的策略，旨在通过共享和压缩深层模型（教师）的知识来提高浅层模型（学生）的性能。
量化（Q）-旨在减少ViT权重和激活函数的数据类型（从浮点到整数）和精度（从32位到较低比特率），获得轻量级和高效内存模型的技术。

Transformer结构的第一个关键元素是创建补丁嵌入（patch embedding）；为了获得它，通常对输入特征图进行如下处理：首先，将输入图像x划分为N个块。类似于NLP任务中的单词序列，补丁是包含输入图像一部分（即输入数据的子集）的像素矩阵。然后对每个补丁进行平坦化，获得n个实体的序列，并与可训练嵌入张量相乘，其学习将每个平坦补丁线性投影到维度d；这造成n个形状为1×d的嵌入块，通常表示为N。随后，将可训练的位置嵌入添加到投影序列中，以便添加图像空间内每个块的空间表示，整体输出嵌入定义为z。

给定补丁嵌入序列zn，自注意机制学习如何将一个token（ti）与其他 token（tj with j！= i and i，j∈d）收集到序列中。该解决方案导致从输入特征中提取全局信息，这改进了卷积运算的固定感受野。通常，Transformer结构是基于多头注意（MSA）机制，该机制由几个并行运行的单个自注意层组成；如图就是自注意块和多头自注意块的概述。

添加图片注释，不超过 140 字（可选）

自注意模块可以在数学上定义如下。给定一个输入向量，此操作首先计算三个矩阵：分别为大小相等的Q、K和V（dq=dk=dv）。随后，该操作将获得的分数转换为概率，计算softmax函数。因此，原始自注意[57]，也称为softmax点积自注意运算，用注意矩阵A定义。矩阵A聚合来自完整输入序列的全局信息来更新序列的每个分量。

然而，从计算复杂性方面来看，该操作的时间和存储成本随着图像内的补丁数量n二次增加（即O（n^2））。这一成本是由于两个点积运算（如上图中的MatMul所示），

添加图片注释，不超过 140 字（可选）