Visual Prompt Tuning
论文简介:
目前采用预训练模型的方法包括更新所有的主干参数,即完全微调。本文则介绍了视觉提示调优(VPT)作为一种有效的大型 Transformer 模型的替代方案。VPT 从有效调优大型语言模型的最新进展中获得灵感,在输入空间中只引入了少量(少于模型参数的1%)的可训练参数,同时保持模型主干冻结。对各种下游识别任务的广泛实验表明,与其他参数高效的调优协议相比,VPT获得了显著的性能提高。最重要的是,在许多情况下,VPT在跨模型容量和训练数据规模的情况下甚至优于完全微调,同时降低了每个任务的存储成本。
论文介绍:
本文探索了一条不同的模型迁移路线,即不修改或微调预先训练过的 Transformer 本身,而是修改到 Transformer 的输入。从 NLP 中 Prompt 的最新进展的启发,本文提出了一种新的简单有效的方法,将 Transformer 模型用于下游视觉任务(图1(b)),即视觉提示调优(VPT)。
VPT 只在输入空间中引入了少量特定于任务的可学习参数,同时在下游训练过程中冻结了整个预训练的 Transformer 主干。在实践中,这些附加的参数简单地预先在每个Transformer 层的输入序列中,并在微调过程中与线性头一起学习。
在使用预训练的 ViT 主干的 24 个跨越不同领域的下游识别任务中,VPT 击败了所有其他迁移学习基线,甚至在 20 种情况下超过了完全