论文阅读|Polarized Self-Attention

Polarized Self-Attention: Towards High-quality Pixel-wise Regression

参考:(1条消息) 霸榜COCO和Cityscapes!南理工&CMU提出极化自注意力,更精细的双重注意力建模结构_极市平台的技术博客-CSDN博客

目录

Abstract

Introduction

Related work

Pixel-wise Regression Tasks

Self-attention and its Variants

Full-tensor and simplified attention blocks

Our Method

3.1. Self-Attention for Pixel-wise Regression

Internal Attention Resolution

Output Distribution/Non-linearity

3.2. Polarized Self-Attention (PSA) Block

Channel-only branch    

Spatial-only branch  

Composition

Relation of PSA to other Self-Attentions

Experiments

4.1. PSA vs. Baselines

Top-Down 2D Human Pose Estimation

4.2. Comparing with State-of-the Arts

​4.3. Ablation Study

Conclusion and Future Work


Abstract

像素回归可能是细粒度计算机视觉任务中最常见的问题,例如估计关键点热图和分割掩码。这些回归问题非常具有挑战性,尤其是因为它们需要在较低的计算开销下,对高分辨率输入/输出的长距离依赖进行建模,以估计高度非线性的像素语义。虽然深度卷积神经网络(DCNN)中的注意机制在增强远程依赖方面变得流行,但特定于元素的注意力(如非局部块)非常复杂且对噪声敏感,大多数简化的注意力混合体试图在多种任务类型中实现最佳折衷。

在本文中,我们提出了极化自注意力( Polarized Self-Attentio,PSA)块,它结合了两个关键设计以实现高质量的逐像素回归:

  1. 极化滤波:在通道和空间注意力计算中保持高内部分辨率,同时沿对应维度完全折叠输入张量(使用正交的方式,保证了低参数量的同时,保证了高通道分辨率和高空间分辨率,通道上保持C/2的维度,在空间上保持[H,W]的维度 )
  2. 增强:合成直接符合典型细粒度回归输出分布的非线性,例如二维高斯分布(关键点热图)或二维二项式分布(二进制分割掩码)(在注意力机制中加入非线性,使得拟合的输出更具有细腻度,更加贴近真实输出)

PSA 似乎已经耗尽了其仅通道和仅空间分支中的表示能力,因此其顺序布局和并行布局之间仅存在微小的度量差异。 实验结果表明,PSA 在 2D 姿势估计和语义分割基准上将标准基线提高 2 -4 点,并将最新技术提高 1 -2 点。

Introduction

从粗粒度(如图像分类和边界框检测)到细粒度计算机视觉任务(如关键点估计和分割)的最新趋势在研究和工业界都取得了蓬勃发展。与粗粒度任务相比,像素级别的感知在自动驾驶 [42]、增强现实 [7]、医学图像处理 [29] 和公共监控 [46] 中越来越有吸引力。

逐像素回归问题的目标是将具有相同语义的每个图像像素映射到相同的分数。 例如,将所有背景像素映射到 0,将所有前景像素分别映射到它们的类索引。两个典型的任务是关键点热图回归和分割掩码回归。 大多数用于回归问题的 DCNN 模型都采用编码器-解码器架构编码器通常由骨干网络组成,例如 ResNet [18],它依次降低空间分辨率并提高通道分辨率,而解码器通常包含反卷积/上采样操作,用于恢复空间分辨率并降低通道分辨率

通常,连接编码器和解码器的张量的元素数小于输入图像张量和输出张量。 由于计算/内存效率和随机优化的原因,元素的减少是必要的。 然而,相同语义的像素外观和补丁形状本质上是高度非线性的,因此难以用减少的特征数量进行编码。 此外,对于物体和物体部分的精细细节,高输入输出分辨率是首选。与将输入图像折叠为类索引的输出向量的图像分类任务相比,逐像素回归问题具有更高的问题复杂度,其问题复杂度取决于输出元素数量的顺序。 从模型设计的角度来看,逐像素回归问题面临着特殊的挑战:(1)以合理的成本保持高内部分辨率; (2) 拟合输出分布,例如关键点热图或分割掩码。

基于新 DCNN 架构取得的巨大成功,我们专注于一种即插即用的解决方案,该解决方案可以持续改进现有(普通)网络,即插入注意力块。上述大多数混合网络都试图在多种类型中达到最佳折衷 任务,例如,图像分类、对象检测以及实例分割。这些普遍的目标部分地解释了仅通道注意(SE[20]、GE[19]和GCNet[3])是最受欢迎的区块的部分原因。仅通道注意块将相同的权重放在不同的空间位置上,因此分类任务仍然受益,因为它的空间信息最终会通过池化而崩溃,并且对象检测中的锚点位移回归受益,因为仅通道注意一致地突出显示所有前景像素。不幸的是,由于注意力设计的关键差异,通道空间组合注意力块(例如,DA [14]、CBAM [48])没有显示出与最新的仅通道注意力(如 GCNet)相比显着的整体优势

在本文中,我们提出了用于高质量逐像素回归的极化自注意力 (PSA) 模块(参见图 1)。 为了通过池化/下采样来保留原始/baseline DCNN 中高分辨率信息的潜在损失,PSA 在现有注意力块中的注意力计算中保持最高的内部分辨率(另见表 1)。为了拟合典型细粒度回归的输出分布,PSA 在仅通道和仅空间注意分支中融合了 softmax-sigmoid 组合。 与支持特定布局的现有通道空间组合相比,PSA 布局之间仅存在边际度量差异。这表明PSA可能已经耗尽了其仅通道和仅空间分支的表示能力。我们进行了广泛的实验,以证明PSA在标准基线和最新水平上的直接性能增益。

Related work

Pixel-wise Regression Tasks

DCNN 在逐像素回归方面的进步基本上是在追求更高的分辨率。 对于身体关键点估计,Simple-Baseline 由常规组件 ResNet+反卷积组成。 HRnet 通过 4 个并行的从高到低分辨率分支及其金字塔融合解决了 Simple-Baseline 的分辨率挑战。 其他最新的变体,DARK-PoseUDP-Pose,都补偿了由于预处理、后处理造成的分辨率损失,并提出了实现关键点亚像素估计的技术。请注意,除了网络设计之间的性能增益之外,具有 388 × 284 输入的相同模型通常优于具有 256 × 192 输入的模型。 这不断提醒研究人员保持高分辨率信息的重要性。对于语义分割,在 Deeplab 的解码器头中引入了空洞卷积,用于高分辨率输入的宽感受野。 为了克服 Deeplab 中 ResNet 主干的限制,所有最新进展都基于 HRnet,特别是 HRNet-OCR 及其变体是当前最先进的。 还有许多其他多任务架构 [17, 63, 6] 将逐像素回归作为一个组件。

PSA 从注意力的角度进一步追求上述努力的高分辨率目标,并进一步推动上述 DCNN。

Self-attention and its Variants

注意力机制已被引入到许多视觉任务中,以解决标准卷积的弱点。 在自注意力机制中,每个输入张量用于计算一个注意力张量,然后由该注意力张量重新加权。 自注意力在序列建模和生成建模任务中取得成功后,成为捕获远程交互的标准组件。Cordonnier 已经证明,具有足够数量的头的多头自注意力层至少与任何卷积层一样具有表现力。 在一些视觉任务中,例如目标检测和图像分类,自注意力增强卷积模型或独立自注意力模型已经产生了显着的收益。虽然大多数自注意力块是在卷积块之后插入的,但注意力增强卷积表明,并行化卷积层和注意力块是一种更强大的结构,可以同时处理短程和长程依赖

PSA 提高了像素级回归的自我注意,也可以用于其他变体,例如卷积增强注意。

Full-tensor and simplified attention blocks

基本的非局部块 (NL) 及其变体,例如残差形式的二阶非局部和非对称非局部,产生全张量注意力,并成功地改进了人员重新识别、图像超分辨率和语义分割任务。 为了捕获所有特征元素之间的成对相似性,NL 块计算关键特征图和查询特征图之间的极大相似度矩阵,导致巨大的内存和计算成本。EA [39] 产生 NL 块的低阶近似以提高计算效率。 BAM [33]、DAN [14] 和 CBAM [48] 产生了仅通道和仅空间注意的不同组合。 Squeeze-and-Excitation (SENet) [20]、Gather-Excite [19] 和 GCNet [3] 仅使用从全局上下文建模中聚合的信号重新加权特征通道。上述大多数注意力块被设计为多种类型的折衷方案 任务,并且不解决细粒度回归中的特定挑战。

PSA 通过在现有注意力块中保持最高的注意力分辨率并直接拟合典型的输出分布来解决细粒度回归中的特定挑战。

Our Method

X\in \mathbb{R}^{C_{in}\times H\times W}表示为一个样本(例如,一张图像)的特征张量,其中 Cin,H,W 分别是沿 X 的高度、宽度和通道维度的元素数。X=\left \{ x_{i} \right \}_{i=1}^{HW}其中x_{i}\in \mathbb{R}^{C_{in}}是沿通道维度的特征向量。一个自注意力块(self-attention block)A(\cdot )以X为输入,并且产生张量Z为输出,Z\in \mathbb{R}^{C_{out}\times H\times W}。一个DCNN模块被表示为非线性映射\varphi :X\rightarrow Z。网络块中可能的运算有:卷积层W(\cdot ),批规范层BN(\cdot ),RELU激活层RU(\cdot )和softmax层SM(\cdot )。在不丧失通用性的情况下,注意块中的所有卷积层均为(1×1)卷积,记为W。在不丧失通用性的情况下,注意块中的所有卷积层均为(1×1)卷积,记为W。为简单起见,我们只考虑DCNN block的输入张量X和输出张量Z具有相同维数C×H×W(即C_{in}=C_{out})的情况。

3.1. Self-Attention for Pixel-wise Regression

用于逐像素回归的 DCNN 沿两个维度学习特征的加权组合:(1)特定于通道的加权以估计特定于类的输出分数; (2) 空间特定的加权来检测相同语义的像素。 应用于 DCNN 的自注意力机制有望进一步突出上述两个目标的特征。

理想情况下,在全张量自注意力Z=A(X)\bigodot X(A(X)\in \mathbb{R}^{C\times H\times W})下,可以在元素力度(C×H×W元素)上潜在地实现突出显示。然而,注意力张量 A 非常复杂,直接学习容易产生噪声。 在 Non-Local self-attention block [47] 中,A 计算为:

这里有4个1×1卷积:WZ、WK、WQ、WV,它学习不同通道之间的空间特征的线性组合。在相同的通道内,WkX 和 WqX 之间的 HW × HW 外积会激活具有相似强度的不同空间位置的任何特征。 空间特征的联合激活机制很可能突出空间噪声。唯一的实际权重 Ws 是特定于通道而不是特定于空间的,这使得 Non-Local attention 在 HW ×HW 矩阵的巨大内存消耗下异常冗余。

为了有效计算,减少NL会导致很多的可能性:A(EA)的低阶近似,仅通道自我注意 A^{ch}\in ^{C\times 1\times 1},突出所有像素的相同全局上下文(GC [3 ] 和 SE [19]),仅空间自注意力A^{sp}\in \mathbb{R}^{1\times W\times H}不足以被识别为独立模型,通道空间组合A^{sp},其中并行组合:Z=A^{ch}\odot^{ch}X+A^{sp}\odot ^{sp}X 和序列组成:Z=A^{ch}\odot ^{ch}(A^{sp}\odot ^{sp}X)引入不同阶的非线性。根据经验得出了不同的结论,例如 CBAM [48](顺序>并行)和 DA [14](并行>顺序),这部分表明任务的预期非线性没有在注意力块内完全建模。

这些问题是不针对逐像素回归问题的一般注意力设计的典型示例。 在表 1 的帮助下,我们重新审视了现有注意力模块的关键设计方面,并对如何实现像素回归的通道特定和空间特定加权提出了挑战。 (所有注意力模块都与它们的最佳性能配置进行了比较。)

*表1:重新审视现有注意力块中的关键设计方面。 所有注意力块都在其最佳性能配置中进行比较。 SM:SoftMax,SD:Sigmoid。 假设 C < W H 估计复杂性。 

Internal Attention Resolution

回想一下,大多数像素级回归 DCNN 使用相同的骨干网络,例如 ResNet,作为分类(即图像识别)和坐标回归(即 bbox 检测、实例分割)任务。 为了鲁棒性和计算效率,这些主干产生低分辨率特征,例如 1×1×512 用于分类,[W/r,H/r] 用于 bbox 检测,其中 r 是最小对象边界框的最长边像素。逐像素回归无法承受这种分辨率损失,特别是因为对象边缘和身体部位的高度非线性很难在低分辨率特征中编码[4,44,40]。

在逐像素回归中使用这些主干,自注意力块有望在注意力计算中保留高分辨率语义。 然而,在表 1 中,NL 的所有缩减都在较低的内部分辨率下达到了最佳性能。 由于它们的性能指标远非完美,自然要问的问题是:是否有更好的非线性可以在注意力计算中利用更高分辨率的信息

Output Distribution/Non-linearity

在用于逐像素回归的 DCNN 中,输出通常被编码为 3D 张量。 例如,2D 关键点坐标被编码为一堆 2D高斯图 [#keypoint_type ×W × H]。 以像素为单位的类索引被编码为二进制映射堆栈 [#semantic classes×W×H],它服从二次正态分布。

在线性变换(例如卷积)上直接拟合分布的非线性可能会减轻DCNN的学习负担。 拟合上述分布的自然非线性函数是用于 2D 高斯映射的 SoftMax,以及用于 2D 二项分布的 Sigmoid。 然而,表 1 中现有的注意力块都没有包含这种非线性函数的组合

3.2. Polarized Self-Attention (PSA) Block

我们对上述挑战的解决方案是在注意力计算中进行“极化过滤(polarized filtering)”。 自注意力模块对输入张量 X 进行操作以突出或抑制特征,这非常类似于过滤光的光学透镜。 在摄影中,总是有横向的随机光产生眩光/反射。 极化滤波,只允许光线垂直于横向通过,可以潜在地改善照片的对比度。由于总强度的损失,过滤后的光通常具有较小的动态范围,因此需要额外的增强,例如 通过高动态范围 (HDR),恢复原始场景的细节。

我们借用摄影的关键因素,提出了极化自注意力(PSA)机制:(1)过滤:在一个方向上完全折叠特征,同时在其正交方向上保持高分辨率; (2)HDR:在bottleneck张量(注意力块中最小的特征张量)处通过Softmax归一化增加注意力的动态范围,然后用Sigmoid函数进行色调映射。 形式上,我们将 PSA 机制实例化为下面的 PSA 块(另请参见图 2 中的图表):

 

Channel-only branch    A^{ch}(X)\in R^{C\times 1\times 1}

Wq、Wk、Wv是1×1卷积层,\sigma_{1}, \sigma_{2}是reshape operator,F_{SM}是softmax算子,×是矩阵点积运算F_{SM}(X)=\sum_{j=1}^{N_{p}}\frac{e^{x_{j}}}{\sum_{m=1}^{N_{p}}e^{x_{m}}}x_{j}。Wv|Wq和Wz之间的内部通道数是C/2,仅通道分支的输出是Z^{ch}=A^{ch}(X)\odot ^{ch}X\in \mathbb{R}^{C\times H\times W}其中\odot ^{ch}是通道乘法运算操作符。 

**作者先用了1x1的卷积将输入的特征X转换成了Q和V,其中Q的通道被完全压缩,而V的通道维度依旧保持在一个比较高的水平(也就是C/2)。因为Q的通道维度被压缩,如上面所说的那样,就需要通过HDR进行信息的增强,因此作者用Softmax对Q的信息进行了增强。然后将Q和K进行矩阵乘法,并在后面接上1x1卷积、LN将通道上C/2的维度升为C。最后用Sigmoid函数使得所有的参数都保持在0-1之间。

Spatial-only branch  A^{sp}(X)\in \mathbb{R}^{1\times H\times W}

Wq、Wv是标准的1×1卷积,\theta _{2}是这些通道卷积的中间参数,\sigma _{1}\sigma _{2}\sigma _{3}是三个reshape operator,F_{SM}是softmax算子,F_{GP}(\cdot )是全局池化运算符F_{GP}(X)=\frac{1}{H\times W}\sum_{H}^{i=1}\sum_{W}^{j=1}X(:,i,j)。仅空间分支的输出为Z^{sp}=A^{sp}(X)\odot ^{sp}X\in \mathbb{R}^{C\times H\times W},其中\odot ^{sp}是空间乘法运算操作符。

**可以看出,与Channel-only branch相似,作者先用了1x1的卷积将输入的特征转换为了Q和V,其中,对于Q特征,作者还用了GlobalPooling对空间维度压缩,转换成了1x1的大小;而V特征的空间维度则保持在一个比较大的水平(HxW)。由于Q的空间维度被压缩了,所以作者就用了Softmax对Q的信息进行增强。然后将Q和K进行矩阵乘法,然后接上reshape和Sigmoid使得所有的参数都保持在0-1之间

Composition

上述两个分支的输出在并行布局下组成:

或者在顺序布局下:

  

Relation of PSA to other Self-Attentions

我们将 PSA 添加到表 1 中并进行以下观察:

内部分辨率与复杂度

与现有的注意力块相比,PSA 在通道 (C/2) 和空间 ([W,H]) 维度上都保留了最高的注意力分辨率

此外,在我们的仅通道注意中,Softmax 重新加权(re-weighting)与挤压激励(squeeze-excitation)融合,利用 Softmax 作为大小为 C/2 × W × H 的bottleneck张量处的非线性激活。通道数从C-C/2-C 遵循 GC 和 SE 模块都受益的模式。 我们的设计在与 GC 块相当的计算复杂度下进行更高分辨率的挤压和激发(higher-resolution squeeze-and-excitation)

我们的spatial-only attention不仅保持了完整的[W,H]空间分辨率,而且在内部保持了Wq和Wv中的2×C×C/2个可学习参数,用于非线性Softmax重新加权,这是比现有块更强大的结构 . 例如,CBAM 中的仅空间注意力由 7×7×2 卷积(线性算子)参数化,EA 学习 C ×dk + C ×dv 参数用于线性重新加权 (dk,dv<<C )。

输出分布/非线性:

PSA 仅通道和仅空间分支都使用Softmax-Sigmoid组合。 将Softmax-Sigmoid组合视为概率分布函数,多模式高斯图(关键点热图)和分段二项式图(分割掩码)都可以通过线性变换来近似,即 PSA 中的 1×1 卷积。因此,我们预计非线性可以充分利用 PSA 注意力分支中保存的高分辨率信息

Experiments

对于任何具有bottleneck或基本残差块的基线网络,例如 ResNet 和 HRnet,我们分别在每个残差块的第一个 3×3 卷积之后添加 PSA对于 2D 姿态估计,我们保持与基线网络相同的训练策略和超参数。 对于语义分割,我们增加了 5000 次迭代的预热训练阶段,将总训练迭代拉伸了 30%,并保留了基线网络的所有其余训练策略和超参数。 根据经验,这些变化允许 PSA 在语义分割上顺利训练。

4.1. PSA vs. Baselines

我们首先将 PSA 块添加到以下任务的标准基线网络中。

Top-Down 2D Human Pose Estimation

在用于 2D 人体姿态估计的 DCNN 方法中,自上而下的方法通常占主导地位。 这个自上而下的管道由一个人边界框检测器和一个关键点热图回归器组成。 具体来说,我们使用 Simplebaseline和 HRNet 中的管道作为我们的基线。 输入图像首先由 MS-COCO val2017 数据集 [28] 上 56.4AP(平均精度)的人体检测器 [51] 处理。然后从输入图像中裁剪出所有检测到的人体图像块,并将其大小调整为 384 × 288。 最后,384×288 图像块被用于单人姿态估计器的关键点热图回归。 输出热图大小为 96 × 72。

我们在 Simple-Baseline [51] 上添加了带有 Resnet50/152 主干的 PSA 和带有 HRnet-w32/w48 主干的 HRnet [40]。 MS-COCO val2017 的结果如表 2 所示。PSA 将所有基线网络提升 2.6 到 4.3 AP,计算开销 (Flops) 和参数数量 (mPara) 很小。即使没有 ImageNet 预训练,PSA 与 “Res50”backbone 获得 76.5 AP,不仅比使用 Resnet50 主干的 Simple-Baseline 好 4.3,而且即使使用 Resnet152 主干也比 Simple-Baseline 好。

在具有 HRNet-W32 主干的 PSA 上也观察到类似的好处,优于具有“HR-w48”主干的基线。 PAS 的巨大性能提升和较小的开销使 PSA+HRNet-W32 成为表 2 中所有模型中最具成本效益的模型。

 Semantic Segmentation

4.2. Comparing with State-of-the Arts

然后,我们将 PSA 应用于上述任务的当前最新技术。 自上而下的 2D 人体姿势估计。 据我们所知,目前单一模型的最新结果是通过 UDP-HRnet 在 MS-COCO 关键点测试开发集上使用 65.1mAP bbox 检测器实现的。 在表 4 中,我们将 PSA 添加到具有 HRnet-W48 主干的 UDP-Pose 中,并实现了 79.5 的新的最先进的 AP。 PSA 将 UDP-Pose(基线)提高 1.7 个点(参见图 3 (a) 进行定性比较)

请注意,PSA 的并行 (p) 和顺序 (s) 布局之间只有细微的度量差异。 我们相信这部分验证了我们对仅通道和仅空间注意块的设计已经耗尽了沿通道和空间维度的表示能力。

*PSA和strong baseline的定性比较:(a)人体姿势估计(UDP-Pose,表 4) 白色圆圈突出了 PSA 优于强基线的细粒度细节。 

4.3. Ablation Study

在表 6 中,我们在 Simple-Baseline(Resnet50)[51] 上对 PSA 配置进行了消融研究,并将 PSA 与其他相关的自我注意方法进行了比较。 所有开销,例如 Flops、mPara、推理 GPU 内存(“Mem.”)和推理时间(“Time”))都是一个样本的推理成本。 为了减少 CUDA 和 Pytorch 调度中的随机性,我们使用 4 个 TITAN RTX GPU、批量大小 128(批量大小 32/GPU)对 MS-COCOval2017 进行推理,并对样本数量进行平均。

从表 6 中“PSA 消融”的结果中,我们观察到

  1. 仅通道块 (A^{ch}) 优于仅空间注意 (A^{sp}),但可以通过它们的并行 ([A^{ch}|A^{sp}]) 或顺序(A^{sp}(A^{ch}))组合进一步提升;
  2. 并行([A^{ch}|A^{sp}])或顺序(A^{sp}(A^{ch}))组合具有相似的AP、Flops、mPara、推理记忆(Mem.)和推理(Time.)。 

从“related self-attention methods”的结果中,我们观察到

  1. NL 块消耗的内存最多,而在基线上产生的提升最少(2.3AP),表明 NL 是高度冗余的。
  2. channel-only attention GC优于SE,因为它包含了SE。 GC 甚至优于通道+空间注意 CBAM,因为 GC 中基于内积的注意机制比基于卷积/MLP 的 CBAM 更强大。
  3. PSA Ach 是 GC 和 SE 上最好的仅通道注意块。 我们认为 PSA 受益于其最高的通道分辨率 (C/2) 及其输出设计。
  4. 设计相对较早的channel+spatial attention CBAM仍然优于channel-only attention SE。
  5. 在空间注意力和通道注意力相同的顺序布局下,PSA明显优于CBAM。
  6. 在类似的开销下,并行和顺序 PSA 都比compared blocks好。

Conclusion and Future Work

我们提出了极化自我注意(PSA)块,以实现高质量的逐像素回归。 PSA 显着提升了两种关键设计(1)在仅极化通道和仅空间注意分支中都保持高的内部分辨率;(2)加入非线性成分,充分利用保留在PSA分支中的高分辨率信息。 PSA 可以潜在地通过逐像素回归使任何计算机视觉任务受益

目前尚不清楚PSA将如何最好地利用嵌入复杂DCNN头中的分类和位移回归的像素回归,例如实例分割、无锚目标检测和全景分割任务中的像素回归。据我们所知,大多数现有的关于自我注意块的工作只在主干网络中插入块。我们未来的工作是探索在DCNN头中使用PSA。

  • 6
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值