前言
视觉Transformer由于其强大的模型能力,取得了巨大成功。然而,它们的卓越性能伴随着沉重的计算成本,这使得它们不适用于实时应用。在本文中,我们提出了一系列高速视觉Transformer,名为EfficientViT。现有Transformer模型的速度通常受限于内存效率低的操作,特别是在多头自注意力中的张量重塑和逐元素函数。因此,我们设计了一个具有三明治布局的新构建块,即在高效的前馈网络层之间使用单个内存受限的MHSA,以提高内存效率,同时增强通道间通信。此外,注意力图在各个头之间有很高的相似性,这导致了计算冗余。为了解决这个问题,提出了一个CGAttention(级联组注意力模块),通过不同的特征分割来馈送注意力头,这不仅节省了计算成本,还提高了注意力的多样性。
CGAttention理论详解可以参考链接:论文地址
CGAttention代码可在这个链接找到:代码地址