【提示学习论文】POMP：Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition

最新推荐文章于 2024-07-22 14:10:07 发布

一个很菜的小猪

最新推荐文章于 2024-07-22 14:10:07 发布

阅读量627

点赞数 20

分类专栏：提示学习文章标签：学习 prompt 机器学习

本文链接：https://blog.csdn.net/weixin_51293984/article/details/139438602

版权

20 篇文章 2 订阅

订阅专栏

Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition（NeurIPS 2023）

将pre-training应用于prompt-learning的一篇文章，将模型在imagenet-21k上进行预训练时，存在GPU显存资源受限的问题，作者提出了local contrast和local correction来解决显存过载的问题。

问题
作者指出COOP等方法将soft promp tuning到task-specific datasets上，因此训练得到的prompt很难泛化到new classes。
解决
提出要在更大的数据集上训练，得到universal prompt(通用的提示)。

提示调优的计算和缓存成本与类别数量N成正比，在ImageNet-21k上高达316.4GB
![[POMPf3.png|400]]

作者提出高效训练的POMP方法，包含以下两个部分：

传统的计算contrastive loss时，需要正样本与所有负样本对比，需要的资源过高，因此提出每次训练时，从21k的类别中采样k个类别，包括真类y和k-1个负类，用于与ground truth的contrastive loss的计算。采样是通过均匀分布采样。

消融：均匀分布、频率分布、相似度分布
![[POMPt12.png]]

频率分布：
![[POMPg8.png]]

相似度分布：
对hard负类进行抽样，hard负类是指与输入图像x具有较高相似性的类别，很容易与正确类别混淆。
![[POMPg9.png]]

动机类似于NCE-based，抽取一个batch作为样本。

由于计算contrastive loss时没有使用所有的负样本，所以会导致训练出来的prompt存在偏差，因此提出local correction来规范这个prompt。
我们在logits计算中添加了一个局部矫正项m。
在这里插入图片描述

![[POMPt1.png|300]]

通常，图像特征和它的真实类别特征应该非常接近（对齐），所有类别特征应该均匀分布，保留最大信息量并使得类别更容易区分。

在这里插入图片描述

POMP在特征空间中的优势：

关注

专栏目录