论文阅读|Polarized Self-Attention

最新推荐文章于 2025-03-24 20:46:31 发布

xiaoweiyuya

最新推荐文章于 2025-03-24 20:46:31 发布

阅读量9.4k

点赞数 7

分类专栏：人体姿态估计

本文链接：https://blog.csdn.net/weixin_45782047/article/details/123464159

版权

深度学习人工智能

Polarized Self-Attention: Towards High-quality Pixel-wise Regression

参考：(1条消息) 霸榜COCO和Cityscapes！南理工&CMU提出极化自注意力，更精细的双重注意力建模结构_极市平台的技术博客-CSDN博客

Abstract

Introduction

Pixel-wise Regression Tasks

Self-attention and its Variants

Full-tensor and simplified attention blocks

Our Method

3.1. Self-Attention for Pixel-wise Regression

Internal Attention Resolution

Output Distribution/Non-linearity

3.2. Polarized Self-Attention (PSA) Block

Channel-only branch

Spatial-only branch

Composition

Relation of PSA to other Self-Attentions

Experiments

4.1. PSA vs. Baselines

Top-Down 2D Human Pose Estimation

4.2. Comparing with State-of-the Arts

4.3. Ablation Study

Conclusion and Future Work

Abstract

像素回归可能是细粒度计算机视觉任务中最常见的问题，例如估计关键点热图和分割掩码。这些回归问题非常具有挑战性，尤其是因为它们需要在较低的计算开销下，对高分辨率输入/输出的长距离依赖进行建模，以估计高度非线性的像素语义。虽然深度卷积神经网络（DCNN）中的注意机制在增强远程依赖方面变得流行，但特定于元素的注意力（如非局部块）非常复杂且对噪声敏感，大多数简化的注意力混合体试图在多种任务类型中实现最佳折衷。

在本文中，我们提出了极化自注意力（ Polarized Self-Attentio，PSA）块，它结合了两个关键设计以实现高质量的逐像素回归：

极化滤波：在通道和空间注意力计算中保持高内部分辨率，同时沿对应维度完全折叠输入张量(使用正交的方式，保证了低参数量的同时，保证了高通道分辨率和高空间分辨率，通道上保持C/2的维度，在空间上保持[H,W]的维度 )
增强：合成直接符合典型细粒度回归输出分布的非线性，例如二维高斯分布（关键点热图）或二维二项式分布（二进制分割掩码）（在注意力机制中加入非线性，使得拟合的输出更具有细腻度，更加贴近真实输出）

PSA 似乎已经耗尽了其仅通道和仅空间分支中的表示能力，因此其顺序布局和并行布局之间仅存在微小的度量差异。实验结果表明，PSA 在 2D 姿势估计和语义分割基准上将标准基线提高 2 -4 点，并将最新技术提高 1 -2 点。

Introduction

从粗粒度（如图像分类和边界框检测）到细粒度计算机视觉任务（如关键点估计和分割）的最新趋势在研究和工业界都取得了蓬勃发展。与粗粒度任务相比，像素级别的感知在自动驾驶 [42]、增强现实 [7]、医学图像处理 [29] 和公共监控 [46] 中越来越有吸引力。

逐像素回归问题的目标是将具有相同语义的每个图像像素映射到相同的分数。例如，将所有背景像素映射到 0，将所有前景像素分别映射到它们的类索引。两个典型的任务是关键点热图回归和分割掩码回归。大多数用于回归问题的 DCNN 模型都采用编码器-解码器架构。 编码器通常由骨干网络组成，例如 ResNet [18]，它依次降低空间分辨率并提高通道分辨率，而解码器通常包含反卷积/上采样操作，用于恢复空间分辨率并降低通道分辨率。

通常，连接编码器和解码器的张量的元素数小于输入图像张量和输出张量。由于计算/内存效率和随机优化的原因，元素的减少是必要的。然而，相同语义的像素外观和补丁形状本质上是高度非线性的，因此难以用减少的特征数量进行编码。此外，对于物体和物体部分的精细细节，高输入输出分辨率是首选。与将输入图像折叠为类索引的输出向量的图像分类任务相比，逐像素回归问题具有更高的问题复杂度，其问题复杂度取决于输出元素数量的顺序。从模型设计的角度来看，逐像素回归问题面临着特殊的挑战：（1）以合理的成本保持高内部分辨率； (2) 拟合输出分布，例如关键点热图或分割掩码。

基于新 DCNN 架构取得的巨大成功，我们专注于一种即插即用的解决方案，该解决方案可以持续改进现有（普通）网络，即插入注意力块。上述大多数混合网络都试图在多种类型中达到最佳折衷任务，例如，图像分类、对象检测以及实例分割。这些普遍的目标部分地解释了仅通道注意(SE[20]、GE[19]和GCNet[3])是最受欢迎的区块的部分原因。仅通道注意块将相同的权重放在不同的空间位置上，因此分类任务仍然受益，因为它的空间信息最终会通过池化而崩溃，并且对象检测中的锚点位移回归受益，因为仅通道注意一致地突出显示所有前景像素。不幸的是，由于注意力设计的关键差异，通道空间组合注意力块（例如，DA [14]、CBAM [48]）没有显示出与最新的仅通道注意力（如 GCNet）相比显着的整体优势。

在本文中，我们提出了用于高质量逐像素回归的极化自注意力 (PSA) 模块（参见图 1）。为了通过池化/下采样来保留原始/baseline DCNN 中高分辨率信息的潜在损失，PSA 在现有注意力块中的注意力计算中保持最高的内部分辨率（另见表 1）。为了拟合典型细粒度回归的输出分布，PSA 在仅通道和仅空间注意分支中融合了 softmax-sigmoid 组合。与支持特定布局的现有通道空间组合相比，PSA 布局之间仅存在边际度量差异。这表明PSA可能已经耗尽了其仅通道和仅空间分支的表示能力。我们进行了广泛的实验，以证明PSA在标准基线和最新水平上的直接性能增益。

Pixel-wise Regression Tasks

DCNN 在逐像素回归方面的进步基本上是在追求更高的分辨率。对于身体关键点估计，Simple-Baseline 由常规组件 ResNet+反卷积组成。 HRnet 通过 4 个并行的从高到低分辨率分支及其金字塔融合解决了 Simple-Baseline 的分辨率挑战。其他最新的变体，DARK-Pose和UDP-Pose，都补偿了由于预处理、后处理造成的分辨率损失，并提出了实现关键点亚像素估计的技术。请注意，除了网络设计之间的性能增益之外，具有 388 × 284 输入的相同模型通常优于具有 256 × 192 输入的模型。这不断提醒研究人员保持高分辨率信息的重要性。对于语义分割，在 Deeplab 的解码器头中引入了空洞卷积，用于高分辨率输入的宽感受野。为了克服 Deeplab 中 ResNet 主干的限制，所有最新进展都基于 HRnet，特别是 HRNet-OCR 及其变体是当前最先进的。还有许多其他多任务架构 [17, 63, 6] 将逐像素回归作为一个组件。

PSA 从注意力的角度进一步追求上述努力的高分辨率目标，并进一步推动上述 DCNN。