- 博客(148)
- 收藏
- 关注
原创 【提示学习论文】Learning to Adapt Category Consistent Meta-Feature of CLIP for Few-Shot Classification
问题:现有方法CoOp/Tip-Adapter只关注(与文本特征对齐的)高层次视觉特征。few-shot目标:通过少量的标记样本,对同类别的unseen image 进行分类。作者发现与高层次表示不同,低层次的局部表示在seen和unseen中更加一致。基于这一点,提出了MF-Adapter,结合了局部表示LRs(local representations)和高层次语义表示。特别地,引入了MF unit 元特征单元,一个简单高效的单元,进行局部相似性度量,以归纳的方式衡量类别一致的局部上下文。
2024-10-24 17:58:57 790
原创 【提示学习论文】CoCoLe:Conceptual Codebook Learning for Vision-Language Models
对CPL的改进
2024-08-28 23:34:13 670 1
原创 【提示学习论文】KDPL:Improving Zero-shot Generalization of Learned Prompts via Unsupervised Knowledge Distil
给定一个图像批次X=Ii N,和所有类别名称C,使用教师模型对所有图像和词汇表中的所有类别(20k)进行推理,得到概率pT。将教师模型概率pT与学生模型的概率pS进行对比,通过对称KL散度损失函数进行知识蒸馏,更新学生模型的提示γ。可以在没有类别名称或标签信息的情况下,与任意现有的提示学习方法无缝集成。老师和学生模型都输入了训练集类别名称,一样的class进行对齐就好。根据平均概率,选择K个最高类别,作为学生模型的输入。,表示每个类别在整个批次中的平均概率。沿批次轴计算平均概率,得到。
2024-08-28 23:27:34 1033
原创 【提示学习论文】CPL:Concept-Guided Prompt Learning for Generalization in Vision-Language Models
之前的方法只投影全局特征到prompt,忽略了多样视觉概念,比如颜色、形状、大小利用CLIP的丰富知识来创建一个可视化的概念缓存,实现概念引导提示。
2024-08-28 23:21:20 953
原创 【提示学习论文】AAPL: Adding Attributes to Prompt Learning for Vision-Language Models
在CoCoOp上的改进,在原本的meta-net中,增加了Adtriplet loss。通过在两个类别,两种随机增强之间计算,更新meta-net。然后将meta token加入到Learnable prompt里面,和CoCoOp一样。
2024-08-24 16:19:12 484 1
原创 【提示学习论文】POMP:Prompt Pre-Training with Twenty-Thousand Classes for Open-Vocabulary Visual Recognition
传统的计算contrastive loss时,需要正样本与所有负样本对比,需要的资源过高,因此提出每次训练时,从21k的类别中采样k个类别,包括真类y和k-1个负类,用于与ground truth的contrastive loss的计算。将pre-training应用于prompt-learning的一篇文章,将模型在imagenet-21k上进行预训练时,存在GPU显存资源受限的问题,作者提出了local contrast和local correction来解决显存过载的问题。提示调优的计算和缓存成本。
2024-06-04 11:49:49 773 1
原创 【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model
近年来,通过可学习的域共享或图像条件的文本tokens,促进生成适用于特定任务的分类器问题:这些textual tokens对unseen域具有有限的泛化能力,不能动态地适应测试类的分布解决:提出了新的基于文本的类感知提示调优(TCP,Textual-based Class-aware Prompt)。显式地结合关于类的先验知识,增强它们的可辨别性。利用文本知识嵌入(TKE),映射高泛化性的类级文本知识,到类感知文本tokens。
2024-05-14 19:03:56 1087 1
原创 【提示学习论文】Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models论文原理
在这项工作中,我们探讨了如何充分发挥预训练的视觉-语言基础模型作为更好的零样本学习者的潜力。TPT 的思想可以应用于其他基础模型,用于各种下游任务,包括其他视觉-语言模型和其他模态的基础模型(例如,预训练的大规模语言模型),以进一步提高它们的零样本泛化能力。在测试时给定单个样本,我们通过生成多个随机增强视图来执行提示调优,并优化文本提示,以便模型在不同的增强视图中具有一致的预测。结果表明,使用置信度最高的前 10% 样本可以获得最高的平均准确率,另外,置信度选择的效果可推广到其他基于熵的测试时优化方法。
2024-05-05 17:43:56 1414
原创 【提示学习论文】PMF:Efficient Multimodal Fusion via Interactive Prompting论文原理
由于每个单模态变换器的总变换器层数(Limg和Ltxt)现在不同,两个模态的单模态基础特征现在需要不同的层进行提取,而融合保留的剩余层数量保持不变。结论:我们提出了一种新型的模块化多模态融合框架,展现了高度的灵活性,并促进了不同模态之间的双向交互,即PMF。通过仅在使用的单模态变换器的深层上添加提示,PMF可以显著减少反向传播中梯度计算的内存使用。每个融合层由查询阶段、融合阶段组成,提取的单模态基本特征通过多个多模态融合层进行融合。表2中,可以看到,PMF的可学习参数少,可节省高达66%的训练内存使用量。
2024-04-28 16:23:52 1639
原创 【提示学习】PromptSync论文问题汇总
在 ImageNet 上计算出每个类别的原型,这些原型是离线计算的,包括了样本和其增强视图。我们的方法解决了类优势和方差问题,总体上比现有方法高出2.33%,在领域泛化基准上,从基础到新的泛化提高了1%,跨数据集传输提高了2.84%。在计算损失时,均方误差损失对于一定范围内的误差增加会给予相等的惩罚,而我们希望在小范围内的误差增加时给予更大的惩罚,因此作者将损失取对数。训练可学习提示,使用对比学习的方法,拉近同一类别样本在嵌入空间中的距离,将不同类别的样本推开,实现更好的样本分类和原型分布。
2024-04-26 11:18:52 1344
原创 【提示学习论文】BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning论文原理
在 BlackVIP 中,VP 是由协调器(Coordinator)设计的,并且通过黑盒优化算法(SPSA-GC)来进行优化。
2024-04-20 11:14:24 1183
原创 【提示学习论文】KgCoOp:Visual-Language Prompt Tuning with Knowledge-guided Context Optimization论文原理
本文引入了一种新的提示微调方法知识引导上下文优化(Knowledge-guided Context Optimization,KgCoOp),KgCoOp关键思想是通过减少可学习提示和人工提示之间的差异来缓解对一般文本知识的遗忘,在不舍弃原本知识的情况下确保和general knowledge不偏离太多。
2024-04-07 19:49:29 1414
原创 【提示学习论文】ProGrad:Prompt-aligned Gradient for Prompt Tuning论文原理
提出了一种基于prompt对齐的梯度的引导方法(ProGrad),来应对prompt学习中添加的不正确偏置的问题。在tuning的过程中进行一种正则化,来确保这一步的tuning不和原本的知识(zero-shot CLIP)产生冲突。由CoOp进行学习的域特殊方向,加强其在当前数据下的精度的优化方向,但是这可能导致过拟合。用一个一般普通的prompt和zero-shot CLIP的logits计算一个KL散度,这个KL散度回传的梯度作为一般方向。在本文CoOp中,我们没有使用。来更新上下文向量,而是使用。
2024-04-07 19:42:29 1512
原创 【提示学习论文】Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learner论文原理
我们提出了CaFo,这是一系列基础模型,可以理解来自不同预训练的各种知识,并遵循“提示,生成,然后缓存”的流程。最近,CLIP模型通过大规模语言-图像对的预训练展现出了良好的零样本迁移能力,为开放词汇的视觉识别提供了有利条件。为了层叠不同的预训练范式,我们引入了CaFo和“提示-生成-缓存”的管道,分别释放了不同的自监督知识的力量。许多先前的工作在这一领域提出了各种方法,通过元学习、度量学习和数据增强等手段来增强模型的泛化能力。我们的方法在不同的数据集上显示了最先进的性能,这表明了优越的泛化能力。
2024-03-29 22:05:56 783
原创 【提示学习论文】LEARNING TO COMPOSE SOFT PROMPTS FOR COMPOSITIONAL ZERO-SHOT LEARNING(CSP)论文原理
这篇论文介绍了一种名为组合软提示CSP的学习技术,旨在提高大规模预训练视觉语言模型如CLIP的零样本组合性能,一种预测unseen的属性-对象组合的任务
2024-03-27 16:04:22 905
原创 【提示学习论文】PLOT: PROMPT LEARNING WITH OPTIMAL TRANSPORT FOR VISION-LANGUAGE MODELS论文原理
我们的 PLOT 方法和 CoOp 方法在四个基于 ImageNet 的鲁棒性评估数据集上的结果。,我们报告了直接将提示集合与全局视觉特征进行匹配(标记为“G”)的性能,包括Caltech101、DTD和FOOD101在内的三个数据集。我们建立在CoOp的基础上,并在各种数据集上的少样本识别任务中取得了显著的改进,这证明了学习多个提示而不是单个提示的优势。G+V没有太大改进,G+E有改进,PLOT在所有实验中都表现出了一致的优势,这进一步证明了OT距离的有效性。
2024-03-25 20:14:24 1065
原创 【提示学习论文】“This is my unicorn, Fluffy”Personalizing frozen vision-language representations(perVL)论文原理
提出perVL方法,解决个性化视觉与语言问题。包括三个主要步骤:学习反演映射、初始个性化和微调。通过在两个新的个性化基准数据集上进行实验,证明了在个性化图像检索和分割任务上的有效性。
2024-03-24 20:39:10 666
原创 【提示学习论文】OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression论文原理
本文将有序回归重新定义为具有对比目标的图像-语言匹配问题: 将标签视为文本, 输入文本编码器得到每个序数获取语言原型嵌入。论文提出了基于语言引导的有序回归范式现有的有序回归方法通常存在过拟合以及特征空间有序性缺失的问题论文提出的OrdinalCLIP模型,它将每个序数类别与其源自CLIP文本编码器的语言概念相关联为了利用语言先验,每个序数概念都被映射到相应的语言原型进一步提出了可学习的序数提示词来显式学习序数的嵌入,通过保持秩嵌入的顺序以及插值生成序数。
2024-03-17 20:15:40 1156
原创 【提示学习代码】CoOp代码详读
CoOp是对CLIP的改进工作,主要是对prompt进行学习从而不用来手动设置prompt。自定义CLIP模型:上述两个模块结合而成的CLIP。文本编码器,接收文本的输入,并输出相应的编码表示。将图像和文本进行编码并计算它们之间的相似性。permute后变成了(4,2,3)Prompt学习器,用于学习生成提示。
2024-03-16 12:10:25 3099 17
原创 【域适应论文】MCC:Moment Matching for Multi-Source Domain Adaptation论文原理
数据集中各个域的平均每个类别的图像数量:源领域的集合DS = {D1, D2, …, DN},其中每个源领域Di都是带标签的数据集。此外,还有一个未标记的目标领域DTMoment Distance:源领域和目标领域之间的矩的平方差的总和第一项(关注单个领域):对于每个源领域和每个特征,计算其在源领域和目标领域上期望值的差异,并取平方。然后对所有源领域和特征进行求和,除以源领域的数量N,取平均值第二项(关注不同领域之间):通过训练特征提取器G和分类器集合C,使得在源领域中的分类任务得到很好的执行,并且在共同
2024-03-10 19:30:56 1338
原创 【域适应论文】Maximum classifier discrepancy for unsupervised domain adaptation(MCD)论文理论
训练出两个不同的分类器F1、F2 、特征提取器G ,训练分类器和生成器对。Loss即为求source domain上的分类误差。优化特征生成器 G ,使得。最大分类器差异的领域自适应。
2024-03-03 21:34:08 834
原创 【CV论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文原理
Vision Transformer:进行MSA(多头注意力)计算时,任何一个patch都要与其他所有的patch都进行attention计算,计算量与图片的大小成平方增长。patch partition:打成patch,每个patch大小为4×4,image变成56×56×48。,所以称为W-MSA(Window Multi-Self-Attention)披着transformer皮的卷积神经网络,将二者进行了结合。Swin Transformer:采用了W-MSA,当图片大小增大时,计算量仅仅是。
2024-03-03 14:29:23 963
原创 【提示学习代码】Learning to Prompt for Vision-Language Models(CoOp代码复现)
这个 Bash 脚本中,for SEED in 1 2 3 部分在三个不同的种子下运行相同的实验。每次迭代都使用了一个不同的种子值(1、2、3),以确保在不同运行中获得相似但不完全相同的随机性。half只有GPU支持,pytorch cpu不支持半精度训练,此时去看,isavailable为False;不清楚,重装了torch、torchvision。新下载项目,重装一遍dassl。
2024-02-04 17:52:44 1269 13
原创 【提示学习论文七】Visual Prompt Tuning论文原理
这篇文章于2022年发表在ECCV(European Conference on Computer Vision),作者是Menglin Jia, Luming Tang,Bor-Chun Chen, Claire Cardie, Serge Belongie,Bharath Hariharan, Ser-Nam Lim。VPT是一种有效的用于大规模Transformer的视觉微调,只需要在输入空间引入少量可训练参数,同时冻结backbone。
2024-01-16 14:18:46 1867 1
原创 【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理
这篇文章于2023年发表在CVPR(Conference on Computer Vision and Pattern Recognition),作者是Muhammad Uzair Khattak,Hanoona Rasheed,Muhammad Maaz,Salman Khan,Fahad Shahbaz Khan。研究发现Clip的问题:在单个分支(语言或视觉)中使用prompt来调整表示是次优的,它不能在下游任务上灵活地动态调整两个表示空间。
2024-01-11 20:23:23 2391 8
原创 【提示学习论文五】Conditional Prompt Learning for Vision-Language Models论文原理及复现工作
计算预测概率的公式,涉及了上下文标记和模型的预测函数。Meta-Net 结构: Meta-Net采用了一个。评估模型对给定输入图像的类别预测概率。和 Meta-Net 的参数。,隐藏层将输入维度降低了16倍。训练过程中,更新了上下文向量。
2024-01-06 17:28:34 1544
原创 【迁移学习】月度总结
NIPS-2016-domain-separation-networks-Paper、Deep Reconstruction-Classification Networks for Unsupervised Domain Adaptation、Multi-Adversarial Domain Adaptation、
2024-01-02 16:14:52 676
原创 【迁移学习论文六】Learning Semantic Representations for Unsupervised Domain Adaptation论文原理及复现工作
这篇文章于2018年发表在ICML(International Conference on Machine Learning),作者是Shaoan Xie, Zibin Zheng, Liang Chen, Chuan Chen。以往的领域自适应方法通过对齐源域和目标域之间的全局分布统计来解决这个问题,缺点是它们忽略了样本中包含的语义信息。
2023-12-30 21:54:42 1067 3
原创 【迁移学习论文五】Generate To Adapt Aligning Domains using Generative Adversarial Networks论文原理及复现工作
这篇文章于2018年发表在CVPR,作者是Swami Sankaranarayanan,Yogesh Balaji,Carlos D. Castillo,Rama Chellappa。联合特征空间:通过模型学习到的源域和目标域之间共享的特征表示,在源域和目标域之间有较好的对齐,以便更好的进行迁移。这篇文章的主要贡献是提出了一个能够直接学习联合特征空间的对抗图像生成的无监督领域自适应方法。
2023-12-19 20:12:41 180
原创 【迁移学习论文四】Multi-Adversarial Domain Adaptation论文原理及复现工作
这篇文章于2018年发表在AAAI,作者是清华大学龙明盛老师的学生。通过最大限度地匹配跨域数据分布的多模式结构来增强正迁移;通过防止跨域分布中模式的错误对齐来减轻负迁移。在这些挑战的激励下,作者提出一种多对抗域自适应(MADA)方法,它捕获多模式结构,以支持基于多个域鉴别器的不同数据分布的细粒度对齐。与以前的方法相比,一个关键的改进是能够同时促进相关数据的正迁移和减轻不相关数据的负迁移。利用线性时间内的反向传播计算梯度,通过随机梯度下降实现自适应。这篇模型的提出具有非常重要的意义,它在理论上是合理的。
2023-12-16 16:24:58 668
原创 深度学习第四课
神经网络由浅层到深层,分别可以检测出不同层次的信息,在计算机视觉中我们依托深度卷积神经网络,来依次学习理解图片的边缘特征、局部特征(例如眼睛、鼻子等),直至最后一层综合前面检测的特征来识别整体图像内容。Inception 网络选用不同尺寸的滤波器进行 Same 卷积,并将卷积和池化得到的输出组合拼接起来,最终让网络自己去学习需要的参数和采用的滤波器组合。问题:边缘的次数较少,中间的次数较多,因此忽略了边缘的信息,我们可以在卷积前,先填充一层像素。16是指网络中包含16个卷积层和全连接层,超参数较少。
2023-10-24 21:56:49 522
原创 【深度学习】第七章 AI应用实践策略(上)
每次调整只影响模型某一方面的性能,对其他功能没影响• 模型在训练集上表现不好:尝试更复杂的神经网络或优化算法(Adam)• 模型在验证集上表现不好:尝试正则化处理或加入更多训练数据• 模型在测试集上表现不好:尝试更大的验证集• 模型在实际应用中表现不好:改变测试集或成本函数
2023-10-24 21:52:20 95
原创 深度学习入门(五):经典网络Alexnet实现
AlexNet是一个深度卷积神经网络架构,于2010年代初在深度学习重新引起人们关注时发挥了重要作用。它因在2012年的ImageNet大规模视觉识别挑战(ILSVRC)中获胜而闻名。
2023-08-22 17:40:22 221
原创 深度学习入门(四):经典网络架构(Alexnet、Vgg、Resnet)
在探索深层网络中遇到了问题,20层和56层的 "普通 "网络进行对比,更深的网络却有。感受野是指feature map上某个元素受输入图像上影响的区域,2个3。VGG 最大的特点就是它在之前的网络模型上,通过比较彻底地采用。由下图可知,模型的泛化能力随着层数的增多而逐渐增加。,能够把模型一直堆叠到上百层,而且不出现退化。2014 年ImageNet 竞赛冠军。对网络的最终分类识别效果有很大的作用。8层神经网络、5层卷积层、3层全连接。2012年ImageNet竞赛冠军。3的conv可以代替1个5。
2023-08-22 17:08:26 242
原创 深度学习入门(三):卷积神经网络(CNN)
CNN是一块一块进行对比的,“小块”称之为Features特征。对不同的局部数据进行卷积计算。左边数据在变化,每次滤波器都是针对。与此同时,数据窗口滑动,导致输入在变化,但中间滤波器。给定一张图片,计算机需要模型判断图里的东西是什么?每计算完一个数据窗口内的数据后,数据窗口不断。下图包含两次卷积一次池化,共7层神经网络。随着左边数据窗口的平移滑动,滤波器。的,这个权重不变即所谓的CNN中的。这就是所谓的CNN中的。,直到计算完所有数据。进行筛选压缩的过程,取。
2023-08-22 16:20:24 1985
原创 深度学习入门(二):神经网络整体架构
DROP-OUT是防止神经网络过于复杂,进行随机杀死神经元的一种方法。查看circle data,可以看出效果不佳,看上去像切了一刀。左图是全连接神经网络,右图在神经网络训练过程中,查看circle data,可以看出效果较好。作用于每一层的输入,通过逐层计算得到输出结果。:数值较大或较小时,梯度约为0,出现。将神经元设置为1,查看效果。将神经元设置为2,查看效果。将神经元设置为3,查看效果。
2023-07-28 10:17:30 1524
OfficeHome数据集标签文件
2024-03-26
DRCN论文复刻代码(可运行)
2023-12-14
【互联网程序设计】基于TCP协议的网络聊天室
2023-12-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人