提示学习
文章平均质量分 89
一个很菜的小猪
欢迎来到我的博客
展开
-
【提示学习论文】Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models论文原理
在这项工作中,我们探讨了如何充分发挥预训练的视觉-语言基础模型作为更好的零样本学习者的潜力。TPT 的思想可以应用于其他基础模型,用于各种下游任务,包括其他视觉-语言模型和其他模态的基础模型(例如,预训练的大规模语言模型),以进一步提高它们的零样本泛化能力。在测试时给定单个样本,我们通过生成多个随机增强视图来执行提示调优,并优化文本提示,以便模型在不同的增强视图中具有一致的预测。结果表明,使用置信度最高的前 10% 样本可以获得最高的平均准确率,另外,置信度选择的效果可推广到其他基于熵的测试时优化方法。原创 2024-05-05 17:43:56 · 976 阅读 · 0 评论 -
【提示学习论文】PMF:Efficient Multimodal Fusion via Interactive Prompting论文原理
由于每个单模态变换器的总变换器层数(Limg和Ltxt)现在不同,两个模态的单模态基础特征现在需要不同的层进行提取,而融合保留的剩余层数量保持不变。结论:我们提出了一种新型的模块化多模态融合框架,展现了高度的灵活性,并促进了不同模态之间的双向交互,即PMF。通过仅在使用的单模态变换器的深层上添加提示,PMF可以显著减少反向传播中梯度计算的内存使用。每个融合层由查询阶段、融合阶段组成,提取的单模态基本特征通过多个多模态融合层进行融合。表2中,可以看到,PMF的可学习参数少,可节省高达66%的训练内存使用量。原创 2024-04-28 16:23:52 · 1228 阅读 · 0 评论 -
【提示学习】PromptSync论文问题汇总
在 ImageNet 上计算出每个类别的原型,这些原型是离线计算的,包括了样本和其增强视图。我们的方法解决了类优势和方差问题,总体上比现有方法高出2.33%,在领域泛化基准上,从基础到新的泛化提高了1%,跨数据集传输提高了2.84%。在计算损失时,均方误差损失对于一定范围内的误差增加会给予相等的惩罚,而我们希望在小范围内的误差增加时给予更大的惩罚,因此作者将损失取对数。训练可学习提示,使用对比学习的方法,拉近同一类别样本在嵌入空间中的距离,将不同类别的样本推开,实现更好的样本分类和原型分布。原创 2024-04-26 11:18:52 · 1248 阅读 · 0 评论 -
【提示学习论文】BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning论文原理
在 BlackVIP 中,VP 是由协调器(Coordinator)设计的,并且通过黑盒优化算法(SPSA-GC)来进行优化。原创 2024-04-20 11:14:24 · 1038 阅读 · 0 评论 -
【提示学习论文】KgCoOp:Visual-Language Prompt Tuning with Knowledge-guided Context Optimization论文原理
本文引入了一种新的提示微调方法知识引导上下文优化(Knowledge-guided Context Optimization,KgCoOp),KgCoOp关键思想是通过减少可学习提示和人工提示之间的差异来缓解对一般文本知识的遗忘,在不舍弃原本知识的情况下确保和general knowledge不偏离太多。原创 2024-04-07 19:49:29 · 992 阅读 · 0 评论 -
损失函数L1Loss、L2loss区别
平均绝对误差(Mean Absolute Error,MAE)预测值和真实值之差的绝对值。原创 2024-04-07 19:44:30 · 197 阅读 · 0 评论 -
【提示学习论文】ProGrad:Prompt-aligned Gradient for Prompt Tuning论文原理
提出了一种基于prompt对齐的梯度的引导方法(ProGrad),来应对prompt学习中添加的不正确偏置的问题。在tuning的过程中进行一种正则化,来确保这一步的tuning不和原本的知识(zero-shot CLIP)产生冲突。由CoOp进行学习的域特殊方向,加强其在当前数据下的精度的优化方向,但是这可能导致过拟合。用一个一般普通的prompt和zero-shot CLIP的logits计算一个KL散度,这个KL散度回传的梯度作为一般方向。在本文CoOp中,我们没有使用。来更新上下文向量,而是使用。原创 2024-04-07 19:42:29 · 1064 阅读 · 0 评论 -
【提示学习论文】Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learner论文原理
我们提出了CaFo,这是一系列基础模型,可以理解来自不同预训练的各种知识,并遵循“提示,生成,然后缓存”的流程。最近,CLIP模型通过大规模语言-图像对的预训练展现出了良好的零样本迁移能力,为开放词汇的视觉识别提供了有利条件。为了层叠不同的预训练范式,我们引入了CaFo和“提示-生成-缓存”的管道,分别释放了不同的自监督知识的力量。许多先前的工作在这一领域提出了各种方法,通过元学习、度量学习和数据增强等手段来增强模型的泛化能力。我们的方法在不同的数据集上显示了最先进的性能,这表明了优越的泛化能力。原创 2024-03-29 22:05:56 · 576 阅读 · 0 评论 -
【提示学习论文】LEARNING TO COMPOSE SOFT PROMPTS FOR COMPOSITIONAL ZERO-SHOT LEARNING(CSP)论文原理
这篇论文介绍了一种名为组合软提示CSP的学习技术,旨在提高大规模预训练视觉语言模型如CLIP的零样本组合性能,一种预测unseen的属性-对象组合的任务原创 2024-03-27 16:04:22 · 744 阅读 · 0 评论 -
【提示学习论文】PLOT: PROMPT LEARNING WITH OPTIMAL TRANSPORT FOR VISION-LANGUAGE MODELS论文原理
我们的 PLOT 方法和 CoOp 方法在四个基于 ImageNet 的鲁棒性评估数据集上的结果。,我们报告了直接将提示集合与全局视觉特征进行匹配(标记为“G”)的性能,包括Caltech101、DTD和FOOD101在内的三个数据集。我们建立在CoOp的基础上,并在各种数据集上的少样本识别任务中取得了显著的改进,这证明了学习多个提示而不是单个提示的优势。G+V没有太大改进,G+E有改进,PLOT在所有实验中都表现出了一致的优势,这进一步证明了OT距离的有效性。原创 2024-03-25 20:14:24 · 833 阅读 · 0 评论 -
【提示学习论文】“This is my unicorn, Fluffy”Personalizing frozen vision-language representations(perVL)论文原理
提出perVL方法,解决个性化视觉与语言问题。包括三个主要步骤:学习反演映射、初始个性化和微调。通过在两个新的个性化基准数据集上进行实验,证明了在个性化图像检索和分割任务上的有效性。原创 2024-03-24 20:39:10 · 573 阅读 · 0 评论 -
【提示学习论文】OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression论文原理
本文将有序回归重新定义为具有对比目标的图像-语言匹配问题: 将标签视为文本, 输入文本编码器得到每个序数获取语言原型嵌入。论文提出了基于语言引导的有序回归范式现有的有序回归方法通常存在过拟合以及特征空间有序性缺失的问题论文提出的OrdinalCLIP模型,它将每个序数类别与其源自CLIP文本编码器的语言概念相关联为了利用语言先验,每个序数概念都被映射到相应的语言原型进一步提出了可学习的序数提示词来显式学习序数的嵌入,通过保持秩嵌入的顺序以及插值生成序数。原创 2024-03-17 20:15:40 · 962 阅读 · 0 评论 -
【提示学习代码】CoOp代码详读
CoOp是对CLIP的改进工作,主要是对prompt进行学习从而不用来手动设置prompt。自定义CLIP模型:上述两个模块结合而成的CLIP。文本编码器,接收文本的输入,并输出相应的编码表示。将图像和文本进行编码并计算它们之间的相似性。permute后变成了(4,2,3)Prompt学习器,用于学习生成提示。原创 2024-03-16 12:10:25 · 1291 阅读 · 2 评论 -
【CV论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文原理
Vision Transformer:进行MSA(多头注意力)计算时,任何一个patch都要与其他所有的patch都进行attention计算,计算量与图片的大小成平方增长。patch partition:打成patch,每个patch大小为4×4,image变成56×56×48。,所以称为W-MSA(Window Multi-Self-Attention)披着transformer皮的卷积神经网络,将二者进行了结合。Swin Transformer:采用了W-MSA,当图片大小增大时,计算量仅仅是。原创 2024-03-03 14:29:23 · 864 阅读 · 0 评论 -
【提示学习代码】Learning to Prompt for Vision-Language Models(CoOp代码复现)
这个 Bash 脚本中,for SEED in 1 2 3 部分在三个不同的种子下运行相同的实验。每次迭代都使用了一个不同的种子值(1、2、3),以确保在不同运行中获得相似但不完全相同的随机性。half只有GPU支持,pytorch cpu不支持半精度训练,此时去看,isavailable为False;不清楚,重装了torch、torchvision。新下载项目,重装一遍dassl。原创 2024-02-04 17:52:44 · 829 阅读 · 5 评论 -
【提示学习论文七】Visual Prompt Tuning论文原理
这篇文章于2022年发表在ECCV(European Conference on Computer Vision),作者是Menglin Jia, Luming Tang,Bor-Chun Chen, Claire Cardie, Serge Belongie,Bharath Hariharan, Ser-Nam Lim。VPT是一种有效的用于大规模Transformer的视觉微调,只需要在输入空间引入少量可训练参数,同时冻结backbone。原创 2024-01-16 14:18:46 · 1298 阅读 · 0 评论 -
【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理
这篇文章于2023年发表在CVPR(Conference on Computer Vision and Pattern Recognition),作者是Muhammad Uzair Khattak,Hanoona Rasheed,Muhammad Maaz,Salman Khan,Fahad Shahbaz Khan。研究发现Clip的问题:在单个分支(语言或视觉)中使用prompt来调整表示是次优的,它不能在下游任务上灵活地动态调整两个表示空间。原创 2024-01-11 20:23:23 · 1578 阅读 · 0 评论 -
【提示学习论文五】Conditional Prompt Learning for Vision-Language Models论文原理及复现工作
计算预测概率的公式,涉及了上下文标记和模型的预测函数。Meta-Net 结构: Meta-Net采用了一个。评估模型对给定输入图像的类别预测概率。和 Meta-Net 的参数。,隐藏层将输入维度降低了16倍。训练过程中,更新了上下文向量。原创 2024-01-06 17:28:34 · 1217 阅读 · 0 评论