自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(143)
  • 收藏
  • 关注

原创 【提示学习论文】TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

近年来,通过可学习的域共享或图像条件的文本tokens,促进生成适用于特定任务的分类器问题:这些textual tokens对unseen域具有有限的泛化能力,不能动态地适应测试类的分布解决:提出了新的基于文本的类感知提示调优(TCP,Textual-based Class-aware Prompt)。显式地结合关于类的先验知识,增强它们的可辨别性。利用文本知识嵌入(TKE),映射高泛化性的类级文本知识,到类感知文本tokens。

2024-05-14 19:03:56 730 1

原创 【提示学习论文】Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models论文原理

在这项工作中,我们探讨了如何充分发挥预训练的视觉-语言基础模型作为更好的零样本学习者的潜力。TPT 的思想可以应用于其他基础模型,用于各种下游任务,包括其他视觉-语言模型和其他模态的基础模型(例如,预训练的大规模语言模型),以进一步提高它们的零样本泛化能力。在测试时给定单个样本,我们通过生成多个随机增强视图来执行提示调优,并优化文本提示,以便模型在不同的增强视图中具有一致的预测。结果表明,使用置信度最高的前 10% 样本可以获得最高的平均准确率,另外,置信度选择的效果可推广到其他基于熵的测试时优化方法。

2024-05-05 17:43:56 1010

原创 【提示学习论文】PMF:Efficient Multimodal Fusion via Interactive Prompting论文原理

由于每个单模态变换器的总变换器层数(Limg和Ltxt)现在不同,两个模态的单模态基础特征现在需要不同的层进行提取,而融合保留的剩余层数量保持不变。结论:我们提出了一种新型的模块化多模态融合框架,展现了高度的灵活性,并促进了不同模态之间的双向交互,即PMF。通过仅在使用的单模态变换器的深层上添加提示,PMF可以显著减少反向传播中梯度计算的内存使用。每个融合层由查询阶段、融合阶段组成,提取的单模态基本特征通过多个多模态融合层进行融合。表2中,可以看到,PMF的可学习参数少,可节省高达66%的训练内存使用量。

2024-04-28 16:23:52 1246

原创 【提示学习】PromptSync论文问题汇总

在 ImageNet 上计算出每个类别的原型,这些原型是离线计算的,包括了样本和其增强视图。我们的方法解决了类优势和方差问题,总体上比现有方法高出2.33%,在领域泛化基准上,从基础到新的泛化提高了1%,跨数据集传输提高了2.84%。在计算损失时,均方误差损失对于一定范围内的误差增加会给予相等的惩罚,而我们希望在小范围内的误差增加时给予更大的惩罚,因此作者将损失取对数。训练可学习提示,使用对比学习的方法,拉近同一类别样本在嵌入空间中的距离,将不同类别的样本推开,实现更好的样本分类和原型分布。

2024-04-26 11:18:52 1253

原创 【提示学习论文】BlackVIP: Black-Box Visual Prompting for Robust Transfer Learning论文原理

在 BlackVIP 中,VP 是由协调器(Coordinator)设计的,并且通过黑盒优化算法(SPSA-GC)来进行优化。

2024-04-20 11:14:24 1044

原创 【提示学习论文】KgCoOp:Visual-Language Prompt Tuning with Knowledge-guided Context Optimization论文原理

本文引入了一种新的提示微调方法知识引导上下文优化(Knowledge-guided Context Optimization,KgCoOp),KgCoOp关键思想是通过减少可学习提示和人工提示之间的差异来缓解对一般文本知识的遗忘,在不舍弃原本知识的情况下确保和general knowledge不偏离太多。

2024-04-07 19:49:29 1025

原创 损失函数L1Loss、L2loss区别

平均绝对误差(Mean Absolute Error,MAE)预测值和真实值之差的绝对值。

2024-04-07 19:44:30 222

原创 【提示学习论文】ProGrad:Prompt-aligned Gradient for Prompt Tuning论文原理

提出了一种基于prompt对齐的梯度的引导方法(ProGrad),来应对prompt学习中添加的不正确偏置的问题。在tuning的过程中进行一种正则化,来确保这一步的tuning不和原本的知识(zero-shot CLIP)产生冲突。由CoOp进行学习的域特殊方向,加强其在当前数据下的精度的优化方向,但是这可能导致过拟合。用一个一般普通的prompt和zero-shot CLIP的logits计算一个KL散度,这个KL散度回传的梯度作为一般方向。在本文CoOp中,我们没有使用。来更新上下文向量,而是使用。

2024-04-07 19:42:29 1086

原创 【提示学习论文】Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learner论文原理

我们提出了CaFo,这是一系列基础模型,可以理解来自不同预训练的各种知识,并遵循“提示,生成,然后缓存”的流程。最近,CLIP模型通过大规模语言-图像对的预训练展现出了良好的零样本迁移能力,为开放词汇的视觉识别提供了有利条件。为了层叠不同的预训练范式,我们引入了CaFo和“提示-生成-缓存”的管道,分别释放了不同的自监督知识的力量。许多先前的工作在这一领域提出了各种方法,通过元学习、度量学习和数据增强等手段来增强模型的泛化能力。我们的方法在不同的数据集上显示了最先进的性能,这表明了优越的泛化能力。

2024-03-29 22:05:56 581

原创 【提示学习论文】LEARNING TO COMPOSE SOFT PROMPTS FOR COMPOSITIONAL ZERO-SHOT LEARNING(CSP)论文原理

这篇论文介绍了一种名为组合软提示CSP的学习技术,旨在提高大规模预训练视觉语言模型如CLIP的零样本组合性能,一种预测unseen的属性-对象组合的任务

2024-03-27 16:04:22 750

原创 【提示学习论文】PLOT: PROMPT LEARNING WITH OPTIMAL TRANSPORT FOR VISION-LANGUAGE MODELS论文原理

我们的 PLOT 方法和 CoOp 方法在四个基于 ImageNet 的鲁棒性评估数据集上的结果。,我们报告了直接将提示集合与全局视觉特征进行匹配(标记为“G”)的性能,包括Caltech101、DTD和FOOD101在内的三个数据集。我们建立在CoOp的基础上,并在各种数据集上的少样本识别任务中取得了显著的改进,这证明了学习多个提示而不是单个提示的优势。G+V没有太大改进,G+E有改进,PLOT在所有实验中都表现出了一致的优势,这进一步证明了OT距离的有效性。

2024-03-25 20:14:24 847

原创 【提示学习论文】“This is my unicorn, Fluffy”Personalizing frozen vision-language representations(perVL)论文原理

提出perVL方法,解决个性化视觉与语言问题。包括三个主要步骤:学习反演映射、初始个性化和微调。通过在两个新的个性化基准数据集上进行实验,证明了在个性化图像检索和分割任务上的有效性。

2024-03-24 20:39:10 575

原创 【提示学习论文】OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression论文原理

本文将有序回归重新定义为具有对比目标的图像-语言匹配问题: 将标签视为文本, 输入文本编码器得到每个序数获取语言原型嵌入。论文提出了基于语言引导的有序回归范式现有的有序回归方法通常存在过拟合以及特征空间有序性缺失的问题论文提出的OrdinalCLIP模型,它将每个序数类别与其源自CLIP文本编码器的语言概念相关联为了利用语言先验,每个序数概念都被映射到相应的语言原型进一步提出了可学习的序数提示词来显式学习序数的嵌入,通过保持秩嵌入的顺序以及插值生成序数。

2024-03-17 20:15:40 966

原创 【提示学习代码】CoOp代码详读

CoOp是对CLIP的改进工作,主要是对prompt进行学习从而不用来手动设置prompt。自定义CLIP模型:上述两个模块结合而成的CLIP。文本编码器,接收文本的输入,并输出相应的编码表示。将图像和文本进行编码并计算它们之间的相似性。permute后变成了(4,2,3)Prompt学习器,用于学习生成提示。

2024-03-16 12:10:25 1440 3

原创 【域适应论文】MCC:Moment Matching for Multi-Source Domain Adaptation论文原理

数据集中各个域的平均每个类别的图像数量:源领域的集合DS = {D1, D2, …, DN},其中每个源领域Di都是带标签的数据集。此外,还有一个未标记的目标领域DTMoment Distance:源领域和目标领域之间的矩的平方差的总和第一项(关注单个领域):对于每个源领域和每个特征,计算其在源领域和目标领域上期望值的差异,并取平方。然后对所有源领域和特征进行求和,除以源领域的数量N,取平均值第二项(关注不同领域之间):通过训练特征提取器G和分类器集合C,使得在源领域中的分类任务得到很好的执行,并且在共同

2024-03-10 19:30:56 1130

原创 【域适应论文】Maximum classifier discrepancy for unsupervised domain adaptation(MCD)论文理论

训练出两个不同的分类器F1、F2 、特征提取器G ,训练分类器和生成器对。Loss即为求source domain上的分类误差。优化特征生成器 G ,使得。最大分类器差异的领域自适应。

2024-03-03 21:34:08 494

原创 【CV论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows论文原理

Vision Transformer:进行MSA(多头注意力)计算时,任何一个patch都要与其他所有的patch都进行attention计算,计算量与图片的大小成平方增长。patch partition:打成patch,每个patch大小为4×4,image变成56×56×48。,所以称为W-MSA(Window Multi-Self-Attention)披着transformer皮的卷积神经网络,将二者进行了结合。Swin Transformer:采用了W-MSA,当图片大小增大时,计算量仅仅是。

2024-03-03 14:29:23 878

原创 【域适应论文汇总】未完结(2024/3/10)

近年域适应论文汇总,代码细剖,优化

2024-02-25 21:42:54 894

原创 【提示学习代码】Learning to Prompt for Vision-Language Models(CoOp代码复现)

这个 Bash 脚本中,for SEED in 1 2 3 部分在三个不同的种子下运行相同的实验。每次迭代都使用了一个不同的种子值(1、2、3),以确保在不同运行中获得相似但不完全相同的随机性。half只有GPU支持,pytorch cpu不支持半精度训练,此时去看,isavailable为False;不清楚,重装了torch、torchvision。新下载项目,重装一遍dassl。

2024-02-04 17:52:44 868 5

原创 【提示学习论文七】Visual Prompt Tuning论文原理

这篇文章于2022年发表在ECCV(European Conference on Computer Vision),作者是Menglin Jia, Luming Tang,Bor-Chun Chen, Claire Cardie, Serge Belongie,Bharath Hariharan, Ser-Nam Lim。VPT是一种有效的用于大规模Transformer的视觉微调,只需要在输入空间引入少量可训练参数,同时冻结backbone。

2024-01-16 14:18:46 1351

原创 【提示学习论文六】MaPLe: Multi-modal Prompt Learning论文原理

这篇文章于2023年发表在CVPR(Conference on Computer Vision and Pattern Recognition),作者是Muhammad Uzair Khattak,Hanoona Rasheed,Muhammad Maaz,Salman Khan,Fahad Shahbaz Khan。研究发现Clip的问题:在单个分支(语言或视觉)中使用prompt来调整表示是次优的,它不能在下游任务上灵活地动态调整两个表示空间。

2024-01-11 20:23:23 1619

原创 【提示学习论文五】Conditional Prompt Learning for Vision-Language Models论文原理及复现工作

计算预测概率的公式,涉及了上下文标记和模型的预测函数。Meta-Net 结构: Meta-Net采用了一个。评估模型对给定输入图像的类别预测概率。和 Meta-Net 的参数。,隐藏层将输入维度降低了16倍。训练过程中,更新了上下文向量。

2024-01-06 17:28:34 1256

原创 【2023年度总结】蜕变与挑战

2023年对我而言是重要的一年,我从大三跨越到了大四,这个转折点充满了焦虑和挑战,我不断参与各类竞赛,争取保研名额,同时也获得了宝贵的实习经历,希望一切都是最好的安排。

2024-01-05 12:33:19 1045 1

原创 【迁移学习】月度总结

NIPS-2016-domain-separation-networks-Paper、Deep Reconstruction-Classification Networks for Unsupervised Domain Adaptation、Multi-Adversarial Domain Adaptation、

2024-01-02 16:14:52 570

原创 【迁移学习论文六】Learning Semantic Representations for Unsupervised Domain Adaptation论文原理及复现工作

这篇文章于2018年发表在ICML(International Conference on Machine Learning),作者是Shaoan Xie, Zibin Zheng, Liang Chen, Chuan Chen。以往的领域自适应方法通过对齐源域和目标域之间的全局分布统计来解决这个问题,缺点是它们忽略了样本中包含的语义信息。

2023-12-30 21:54:42 968 3

原创 【迁移学习论文五】Generate To Adapt Aligning Domains using Generative Adversarial Networks论文原理及复现工作

这篇文章于2018年发表在CVPR,作者是Swami Sankaranarayanan,Yogesh Balaji,Carlos D. Castillo,Rama Chellappa。联合特征空间:通过模型学习到的源域和目标域之间共享的特征表示,在源域和目标域之间有较好的对齐,以便更好的进行迁移。这篇文章的主要贡献是提出了一个能够直接学习联合特征空间的对抗图像生成的无监督领域自适应方法。

2023-12-19 20:12:41 92

原创 【迁移学习论文四】Multi-Adversarial Domain Adaptation论文原理及复现工作

这篇文章于2018年发表在AAAI,作者是清华大学龙明盛老师的学生。通过最大限度地匹配跨域数据分布的多模式结构来增强正迁移;通过防止跨域分布中模式的错误对齐来减轻负迁移。在这些挑战的激励下,作者提出一种多对抗域自适应(MADA)方法,它捕获多模式结构,以支持基于多个域鉴别器的不同数据分布的细粒度对齐。与以前的方法相比,一个关键的改进是能够同时促进相关数据的正迁移和减轻不相关数据的负迁移。利用线性时间内的反向传播计算梯度,通过随机梯度下降实现自适应。这篇模型的提出具有非常重要的意义,它在理论上是合理的。

2023-12-16 16:24:58 351

原创 深度学习第四课

神经网络由浅层到深层,分别可以检测出不同层次的信息,在计算机视觉中我们依托深度卷积神经网络,来依次学习理解图片的边缘特征、局部特征(例如眼睛、鼻子等),直至最后一层综合前面检测的特征来识别整体图像内容。Inception 网络选用不同尺寸的滤波器进行 Same 卷积,并将卷积和池化得到的输出组合拼接起来,最终让网络自己去学习需要的参数和采用的滤波器组合。问题:边缘的次数较少,中间的次数较多,因此忽略了边缘的信息,我们可以在卷积前,先填充一层像素。16是指网络中包含16个卷积层和全连接层,超参数较少。

2023-10-24 21:56:49 497

原创 【深度学习】第七章 AI应用实践策略(上)

每次调整只影响模型某一方面的性能,对其他功能没影响• 模型在训练集上表现不好:尝试更复杂的神经网络或优化算法(Adam)• 模型在验证集上表现不好:尝试正则化处理或加入更多训练数据• 模型在测试集上表现不好:尝试更大的验证集• 模型在实际应用中表现不好:改变测试集或成本函数

2023-10-24 21:52:20 81

原创 深度学习入门(五):经典网络Alexnet实现

AlexNet是一个深度卷积神经网络架构,于2010年代初在深度学习重新引起人们关注时发挥了重要作用。它因在2012年的ImageNet大规模视觉识别挑战(ILSVRC)中获胜而闻名。

2023-08-22 17:40:22 192

原创 深度学习入门(四):经典网络架构(Alexnet、Vgg、Resnet)

在探索深层网络中遇到了问题,20层和56层的 "普通 "网络进行对比,更深的网络却有。感受野是指feature map上某个元素受输入图像上影响的区域,2个3。VGG 最大的特点就是它在之前的网络模型上,通过比较彻底地采用。由下图可知,模型的泛化能力随着层数的增多而逐渐增加。,能够把模型一直堆叠到上百层,而且不出现退化。2014 年ImageNet 竞赛冠军。对网络的最终分类识别效果有很大的作用。8层神经网络、5层卷积层、3层全连接。2012年ImageNet竞赛冠军。3的conv可以代替1个5。

2023-08-22 17:08:26 187

原创 深度学习入门(三):卷积神经网络(CNN)

CNN是一块一块进行对比的,“小块”称之为Features特征。对不同的局部数据进行卷积计算。左边数据在变化,每次滤波器都是针对。与此同时,数据窗口滑动,导致输入在变化,但中间滤波器。给定一张图片,计算机需要模型判断图里的东西是什么?每计算完一个数据窗口内的数据后,数据窗口不断。下图包含两次卷积一次池化,共7层神经网络。随着左边数据窗口的平移滑动,滤波器。的,这个权重不变即所谓的CNN中的。这就是所谓的CNN中的。,直到计算完所有数据。进行筛选压缩的过程,取。

2023-08-22 16:20:24 1943

原创 深度学习入门(二):神经网络整体架构

DROP-OUT是防止神经网络过于复杂,进行随机杀死神经元的一种方法。查看circle data,可以看出效果不佳,看上去像切了一刀。左图是全连接神经网络,右图在神经网络训练过程中,查看circle data,可以看出效果较好。作用于每一层的输入,通过逐层计算得到输出结果。:数值较大或较小时,梯度约为0,出现。将神经元设置为1,查看效果。将神经元设置为2,查看效果。将神经元设置为3,查看效果。

2023-07-28 10:17:30 1446

原创 深度学习入门(一):神经网络基础

通过训练多层网络结构对位置数据进行分类或回归,深度学习解决特征工程问题。

2023-07-27 20:55:13 2658 1

原创 【文本信息处理】网络文本访问和处理+分词

网络文本访问和处理,中英文分词、句法分析

2023-04-19 11:10:33 160 1

原创 K-近邻法分类(KNN)

速度的确比一般的近邻方法快,但是由于聚类要消耗大量的时间,因此总速度不如一般的近邻方法。K近邻中包含5个第一类样本。K近邻中包含0个第二类样本。K近邻中包含1个第一类样本。K近邻中包含4个第二类样本。该算法在聚类完成之后,进行。判断待判样本属于第一类。判断待判样本属于第二类。

2023-02-11 10:42:24 207

原创 马尔科夫预测

天气有以下几种状态:晴天、雨天、阴天若已知天气当前处于某种状态,则天气未来的状态只与现在有关,与过去无关注意,天气的状态是随机的,只能求明天处于某一种状态的概率描述这种随机现象的模型,成为马尔科夫模型。

2023-02-10 11:01:29 2599 2

原创 遗传算法(GA)

其基本原理是效仿生物界中的“物竞天择、适者生存”的演化法则。

2023-02-09 11:48:52 799

原创 MATLAB:未定义函数或变量 ‘crtbp’问题解决

发现是因为缺少遗传算法需要的一个谢菲尔德gatbx工具箱,于是参考。

2023-02-09 10:09:55 2148

原创 基于Logistic回归模型评估企业还款能力

Logistic方法用于研究某些现象中发生的概率P,比如股票的涨跌、公司成功失败的概率、P的影响因素等。将模型求解的结果与原始数据的预测值对比,结果完全一致,说明该模型准确率较高。

2023-02-03 20:18:05 448

OfficeHome数据集标签文件

Office-Home数据集是一种用于评估基于域自适应的深度学习算法的数据集,包含了在办公环境和家庭中常见的65类目标图像。该数据集中的4个领域之间的域差异较大,数据集规模也比前一个数据集要大。Office-Home数据集由来自4个不同领域的图像组成,包括Art (Ar)、Clipart (Cl)、Product (Pr)和Real World (Rw)。其中,Art领域包括素描、绘画、装饰品等形式的艺术图像,共2427张图像;Clipart领域包括各种剪贴画图像,共4365张图像;Product领域包括4439张无背景物体图像;RealWorld领域包括普通相机拍摄的物体图像,共4357张图像。 本资源包含Art (Ar)、Clipart (Cl)、Product (Pr)和Real World (Rw)的label文件。

2024-03-26

DRCN论文复刻代码(可运行)

Deep Reconstruction-Classification Networks for Unsupervised Domain Adaptation论文复刻代码+运行 loss_class=nn.CrossEntropyLoss()#分类损失函数 loss_rec=nn.MSELoss()#重构损失函数 Batch_size=64,lr=1e-5,n_epoch=50,运行main.py

2023-12-14

【互联网程序设计】基于TCP协议的网络聊天室

一、设计思路 1、基于TCP协议编程的方式,实现一个功能完善的JavaFX图形界面的网络聊天室。 2、包含服务器端模块和客户端模块 3、客户端模块的主要功能: (1) 登录功能:用户登录需按照指定格式输入登录信息 (2) 显示在线用户:将在线用户显示在列表中 (3) 接收信息:能够接收到其他用户发出的信息 (4) 发送信息:能够发出的信息 4、服务器端模块的主要功能: (1) 检验登录信息:检验登录信息是否正确,并反馈结果 (2) 显示在线状态:向每个用户广播在线用户 (3) 转发聊天信息:将消息广播给所有在线用户 二、程序整体结构 1、ChatServer.java 聊天服务器ChatServer.java,客户端用学号-姓名的方式登录服务器,实现一对一、一对多私聊及群组广播聊天的功能;用户登陆时,需要将用户上线的信息广播给所有在线用户;客户端发送特定指令,服务器能够返回在线用户列表信息…

2023-12-14

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除