Visual Prompt Tuning
论文简介:
目前采用预训练模型的方法包括更新所有的主干参数,即完全微调。本文则介绍了视觉提示调优(VPT)作为一种有效的大型 Transformer 模型的替代方案。VPT 从有效调优大型语言模型的最新进展中获得灵感,在输入空间中只引入了少量(少于模型参数的1%)的可训练参数,同时保持模型主干冻结。对各种下游识别任务的广泛实验表明,与其他参数高效的调优协议相比,VPT获得了显著的性能提高。最重要的是,在许多情况下,VPT在跨模型容量和训练数据规模的情况下甚至优于完全微调,同时降低了每个任务的存储成本。
论文介绍:
本文探索了一条不同的模型迁移路线,即不修改或微调预先训练过的 Transformer 本身,而是修改到 Transformer 的输入。从 NLP 中 Prompt 的最新进展的启发,本文提出了一种新的简单有效的方法,将 Transformer 模型用于下游视觉任务(图1(b)),即视觉提示调优(VPT)。
VPT 只在输入空间中引入了少量特定于任务