自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

weixin_50917576的博客

知识的搬运工

  • 博客(156)
  • 收藏
  • 关注

原创 图解Mamba——从流体力学的角度理解Mamba

跟Transformer的自注意力机制相比,Transformer的自注意力机制更强调个体的独立性,能够捕捉长长距离的上下文依赖关系。而Mamba更强调整体性与全局关系,利用李指数映射实现状态更新与决策。因此,有人认为Mamba在NLP领域是不可能成功的。在NLP领域里边的这种文本的建模非常重要的一点就是长距离依赖的一个建模。Mamba在超过1000token一的这个长度下,它的建模就做不好了。而大模型最有珍贵价值的一点就在于它的这样的一个长距离的一个建模。但是Mamba在CV领域是有很大用处的...

2024-06-12 22:16:52 2082 2

原创 MVPT: Multitask Vision-Language Prompt Tuning

最近的大规模视觉语言模型,在自然语言监督下对各种各样的图像进行预训练(即CLIP [67], ALIGN[38]和Florence [96])在野外图像分类[50,67]和开放词汇检测[29]方面表现出较强的开放集识别能力。尽管具有令人印象深刻的zero-shot传输能力,但将这些大规模视觉语言模型应用于下游任务存在自身的挑战。由于巨大的参数大小和众所周知的过拟合问题,对整个模型进行微调通常是令人望而却步的。

2024-07-10 16:39:28 1146 1

原创 DFT: Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

近年来,低秩自适应(LoRA)在基础模型的微调方面引起了广泛的关注。通过引入低秩矩阵AAA和BBB来表示权重变化,即ΔWBAΔWBA,有效地减少了可训练参数的数量。尽管LoRA取得了进步,但在处理广泛的定制调整或更大的基本模型时,它面临着存储方面的挑战。在这项工作中,我们的目标是利用傅里叶变换的强大表现力进一步压缩可训练参数。具体来说,我们引入傅里叶变换,它将ΔW\Delta WΔW作为空间域中的矩阵,并且只学习其光谱系数的一小部分。

2024-07-10 16:34:30 1092

原创 AdaBoost集成学习算法理论解读以及公式为什么这么设计?

下面以二分类任务(标签不是为-1,就是为+1)为例介绍该算法的具体过程。值得注意的是,下面的公式推导是以二分类任务下得出来,所以公式(比如样本权重更新公式)才会显得比较整洁,但如果换成其他任务,如多分类,那么公式会复杂很多。AdaBoost集成学习算法基本上遵从Boosting集成学习思想,通过。,然后通过加权投票等方式将这些弱学习器集成起来得到性能较优的集成模型。倍,以便在后续弱学习器构造过程得到应有的重视。的权重取值应与其分类性能相关,对于分类错误率。为归一化因子,保证更新后权重向量为概率分布;

2024-07-09 22:16:39 1328

原创 MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

低秩自适应(Low-rank adaptation, LoRA)是一种针对大型语言模型的参数有效微调(PEFT)方法。在本文中,我们分析了在LoRA中实现的低秩更新的影响。我们的研究结果表明,低等级的更新机制可能会限制LLM有效学习和记忆新知识的能力。受此启发,我们提出了一种新的方法,称为MoRA,该方法采用方阵来实现高秩更新,同时保持相同数量的可训练参数。为了实现这一目标,我们引入了相应的非参数算子来减少方阵的输入维数和增加输出维数。

2024-07-09 14:54:35 1300

原创 LORAHUB: EFFICIENT CROSS-TASK GENERALIZATION VIA DYNAMIC LORA COMPOSITION

低秩适应(Low-rank adaptations,LoRA)通常用于为新任务微调大型语言模型(LLM)。本文研究了跨任务泛化的LoRA可组合性,并介绍了LoraHub,这是一个简单的框架,用于有目的地组装在不同给定任务上训练的LoRA模块,目的是在未知任务上实现自适应性能。只需新任务中的几个示例,LoraHub就可以流畅地组合多个LoRA模块,从而消除了对人工专业知识和假设的需求。值得注意的是,该组合既不需要额外的模型参数,也不需要梯度。

2024-07-09 14:48:16 686

原创 FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning

由于数据的可用性有限,现有的小样本学习方法不能达到令人满意的效果。相比之下,大规模的预训练模型,如CLIP,展示了显著的few-shot和zero-shot能力。为了提高下游任务的预训练模型的性能,经常需要对下游数据的模型进行微调。然而,在分布移位的情况下,对预训练模型进行微调会导致其泛化能力下降,而在少数样本学习中,有限的样本数量使模型极易出现过拟合的情况。因此,现有的微调小样本学习方法主要集中在微调模型的分类头或引入额外的结构。在本文中,我们介绍了一种称为特征识别对齐(FD-Align)的微调方法。

2024-07-08 14:22:09 870

原创 PDA:Prompt-based Distribution Alignment for Unsupervised Domain Adaptation

最近,尽管大型预训练视觉语言模型(VLMs)在广泛的下游任务上取得了前所未有的成功,但现实世界的无监督域自适应(UDA)问题仍然没有得到很好的探索。因此,在本文中,我们首先通过实验证明了无监督训练的VLMs可以显著降低源域和目标域之间的分布差异,从而提高UDA的性能。然而,直接在下游UDA任务上部署这种模型的一个主要挑战是提示工程,这需要对齐源领域和目标领域的领域知识,因为UDA的性能受到良好的领域不变表示的严重影响。我们进一步提出了一种基于提示的分布对齐方法,将领域知识整合到提示学习中。

2024-07-08 14:16:55 725 1

原创 PromptMRG: Diagnosis-Driven Prompts for Medical Report Generation

医学报告自动生成(MRG)有很大的研究价值,因为它有可能减轻放射科医生繁重的报告编写负担。尽管最近取得了进展,但由于需要精确的临床理解和疾病识别,准确的MRG仍然具有挑战性。此外,疾病分布的不平衡使得挑战更加明显,因为罕见疾病在训练数据中的代表性不足,使其诊断性能不可靠。为了应对这些挑战,我们提出了诊断驱动的医疗报告生成提示(PromptMRG),这是一个新的框架,旨在通过诊断感知提示的指导提高MRG的诊断准确性。具体来说,PromptMRG是基于编码器-解码器架构,并带有一个额外的疾病分类分支。

2024-06-15 14:23:22 916

原创 PPT: Pre-trained Prompt Tuning for Few-shot Learning

预训练语言模型(PLMs)的提示通过弥合预训练任务和各种下游任务之间的差距,显示出了显著的性能。在这些方法中,提示调优(prompt tuning)冻结PLM,只调整软提示,为大规模PLM适应下游任务提供了一种高效的解决方案。然而,提示调整尚未得到充分的探索。在我们的先导实验中,我们发现当下游数据充足时,提示调优的性能与传统的全模型调优相当,而在小样本学习设置下,提示调优的性能要差得多,这可能会阻碍提示调优的应用。我们将这种低性能归因于初始化软提示的方式。因此,在本工作中,我们。

2024-06-14 14:09:06 1184

原创 LAMM: Label Alignment for Multi-Modal Prompt Learning

随着预训练的视觉语言模型(如CLIP)在视觉表征任务中的成功,将预训练的模型转移到下游任务已成为一个重要的范式。近年来,受自然语言处理(NLP)启发的提示调优范式在VL领域取得了重大进展。然而,之前的方法主要侧重于构建文本和视觉输入的提示模板,而忽略了VL模型与下游任务之间类标签表示的差距。为了解决这一挑战,我们引入了一种创新的标签对齐方法LAMM,该方法可以通过端到端训练动态调整下游数据集的类别嵌入。此外,为了实现更合适的标签分布,我们提出了一种分层损失,包括参数空间、特征空间和logits空间的对齐。

2024-06-14 14:04:35 1339

原创 ADALORA: ADAPTIVE BUDGET ALLOCATION FOR PARAMETER-EFFICIENT FINE-TUNING

在下游任务上对大型预训练语言模型进行微调已经成为自然语言处理的一个重要范例。然而,通常的做法是对预训练模型中的所有参数进行微调,当存在大量下游任务时,这变得令人望而却步。因此,提出了许多微调方法,以参数有效的方式学习预训练权值的增量更新,例如低秩增量。这些方法通常在所有预训练的权重矩阵上均匀地分配增量更新预算,而忽略了不同权重参数的不同重要性。因此,调优性能不是最优的。为了弥补这一差距,我们提出了AdaLoRA算法,该算法根据权重矩阵的重要性评分自适应地在权重矩阵之间分配参数预算。

2024-06-13 13:46:40 1073

原创 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

自然语言处理的一个重要范例是对一般领域数据进行大规模预训练,并适应特定的任务或领域。当我们预训练更大的模型时,重新训练所有模型参数的完全微调变得不太可行。以GPT-3 175B为例,部署独立的微调模型实例,每个实例都有175B参数,这是非常昂贵的。我们提出了低秩自适应(Low-Rank Adaptation, LoRA),它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入到Transformer架构的每一层,从而大大减少了下游任务的可训练参数的数量。

2024-06-13 13:43:02 939

原创 集成算法实验(Bagging策略)

Bagging:训练多个分类器取平均fx1/M∑m1M​fm​x全称: bootstrap aggregation(说白了就是训练一堆分类器)最典型的代表就是随机森林,现在Bagging模型基本上也是随机森林。随机:数据采样随机,;数据有多个特征(属性)组成,。随机是为了使得每个分类器拥有明显差异性。森林:很多个决策树并行放在一起如何对所有树选择最终结果?分类的话可以采取少数服从多数,回归的话可以采用取平均值。

2024-06-12 22:23:21 1170

原创 集成算法实验与分析(软投票与硬投票)

集成算法(Ensemble Methods)是一种机器学习策略,其核心思想是通过组合多个基础模型(Base Learners)的预测结果来构建一个更强的预测模型。这种方法利用了“群体智慧”的概念,认为一群弱模型(即单独表现一般的基础模型)的集体决策通常会优于单个强模型的表现。集成算法能够提高预测的准确性、稳定性和泛化能力,减少过拟合的风险。

2024-06-02 22:28:40 384

原创 知识蒸馏Matching logits与RocketQAv2(公式清晰版)

teacher model可以生成soft label,相比于原始数据的hard label,包含了更多信息量。所以很多时候你与其说直接用一个数据集去训练一个模型,你还不如用这个数据集先训练一个大a模型比a模型要大的模型。再让大a模型去教会a模型去做,有可能效果就更好。就是因为大a模型这个teacher model可以生成soft label相比于原始数据的hard label,可以包含更多的信息量,从而就天然的有一种去燥的一种功能。

2024-06-02 21:12:48 1075

原创 集成算法:Bagging模型、AdaBoost模型和Stacking模型

最典型的代表就是随机森林,现在Bagging模型基本上也是随机森林。随机:数据采样随机,每棵树只用部分数据;数据有多个特征(属性)组成,每棵树随机选择部分特征。随机是为了使得每个分类器拥有明显差异性。森林:很多个决策树并行放在一起。如何对所有树选择最终结果?分类的话可以采取少数服从多数,回归的话可以采用取平均值。

2024-06-02 21:03:56 1223

原创 MedCLIP:Contrastive Learning from Unpaired Medical Images and Text

现有的视觉-文本对比学习,如CLIP (Radford等人,2021)旨在匹配配对的图像和标题嵌入,同时将其他嵌入分开,从而提高表征可转移性并支持零差预测。然而,医学图像-文本数据集比来自互联网的一般图像和说明文字要低几个数量级。此外,以前的方法遇到了许多假阴性,即来自不同患者的图像和报告可能具有相同的语义,但被错误地视为阴性。在本文中,我们将图像和文本解耦用于多模态对比学习,从而以低成本的组合幅度缩放可用的训练数据。我们还提出用基于医学知识的语义匹配损失代替InfoNCE损失,以消除对比学习中的假阴性。

2024-05-20 14:08:57 1316

原创 Few-Shot Learning with Part Discovery and Augmentation from Unlabeled Images

少样本学习是一项具有挑战性的任务,因为只有很少的实例可以用来识别未见过的类。缓解这个问题的一种方法是通过类似任务的元学习获得强归纳偏见。在本文中,我们证明了这种归纳偏差可以从未标记图像的平面集合中学习,并实例化为可见类和未见类之间的可转移表示。具体来说,我们提出了一种新的基于部分的自监督表征学习方案,通过最大化图像与其判别部分的相似性来学习可转移表征。为了缓解由于数据稀缺性导致的少样本分类中的过拟合问题,我们进一步提出了一种从基础数据集中检索额外图像的部分增强策略。

2024-05-20 13:55:22 1155

原创 搜索算法解决八数码问题

搜索算法解决八数码问题(1)熟悉人工智能系统中的问题求解过程;(2)熟悉状态空间中的盲目搜索策略;(3)掌握盲目搜索算法,重点是宽度优先搜索和深度优先搜索算法。

2024-05-18 14:22:55 923

原创 AlphaBeta剪枝算法求解博弈树最优选择

博弈树的输入形式为字符串:[A, [B, (E, 3), (F, 12), (G, 8)], [C, (H, 2), (I, 4), (J, 6)], [D, (K, 14), (L, 5), (M, 2)]],其中 [] 里的第一项为结点名称,后面的 [] 或 () 为子结点,而 () 里边则为叶子结点名称及其值。通过 Python 中的 ast.literal_eval 模块可以将该字符串数据解析为数据在 Python 数据类型里本应该存在的形式。

2024-05-18 14:19:00 948

原创 CROSS-DOMAIN FEW-SHOT CLASSIFICATION VIA LEARNED FEATURE-WISE TRANSFORMATION

少样本分类旨在识别新类别,每个类别中只有很少的标记图像。现有的基于度量的少样本分类算法通过使用学习的度量函数将查询图像的特征嵌入与少数标记图像(支持示例)的特征嵌入进行比较来预测类别。虽然这些方法已经证明了良好的性能,但由于域间特征分布的巨大差异,这些方法往往不能推广到未见过的域。在这项工作中,我们解决了基于度量的方法在域移位下的少样本分类问题。我们的核心思想是在训练阶段使用特征转换层来增强图像特征,使用仿射变换来模拟不同域下的各种特征分布。

2024-05-17 14:00:34 788

原创 BECLR: BATCH ENHANCED CONTRASTIVE FEW-SHOT LEARNING

无监督的少样本学习(U-FSL)希望通过在训练时放弃对注释的依赖来弥合这一差距。对比学习方法在U-FSL领域的成功引起了我们的兴趣,我们从结构上探讨了它们在预训练和下游推理阶段的缺点。我们提出了一种新的动态聚类记忆(DyCE)模块,以促进高度可分离的潜在表示空间,以增强预训练阶段的正采样,并将隐式类水平的见解注入无监督对比学习中。然后,我们在少样本推理阶段处理样本偏差问题,这在某种程度上被忽视了,但很关键。

2024-05-17 13:55:47 799 1

原创 Supervised Masked Knowledge Distillation for Few-Shot Transformers

Vision transformer, ViTs 通过捕获局部特征之间的远程依赖关系,在许多数据丰富的计算机视觉任务中获得了令人印象深刻的性能。然而,在只有少量标记数据的小数据集上的few-shot learning (FSL)设置下,由于缺乏类似cnn的归纳偏差,ViT倾向于过拟合并遭受严重的性能下降。以前在FSL中的工作要么通过帮助自监督辅助损失,要么通过在监督设置下灵巧地使用标签信息来避免这一问题。但自我监督和被监督的少样本transformer之间的差距仍然没有填补。

2024-05-16 14:43:36 480 3

原创 Self-Promoted Supervision for Few-Shot Transformer

vision transformers(ViTs)的少样本学习能力虽然被广泛关注,但很少被研究。在这项工作中,我们通过经验发现,在相同的少样本学习框架(例如MetaBaseline)中,用ViT模型代替广泛使用的CNN特征提取器通常会严重损害少样本分类性能。此外,我们的实证研究表明,在没有归纳偏差的情况下,vit通常在只有少数标记训练数据可用的few-shot学习机制下学习低质量令牌依赖关系,这在很大程度上导致了上述性能下降。为了缓解这一问题,我们首次提出了一个简单而有效的vit训练框架,即自我促进式监督。

2024-05-16 14:30:54 472

原创 论文解读:Pushing the Limits of Simple Pipelines for Few-Shot Learning External Data and Fine-Tuning Make

少样本学习(Few-shot learning, FSL)是计算机视觉领域的一个重要热点问题,它激发了从复杂的元学习方法到简单的迁移学习基线等多种方法的广泛研究。我们试图在实践中推动简单但有效的流水线对真实世界的少样本图像分类的限制。为此,我们从神经结构的角度探讨了少样本学习,以及外部数据的预训练,标记少样本任务的元训练,以及对未见任务的任务特定微调的三个阶段管道。我们调查了以下问题:1外部数据的预训练如何使FSL受益?如何利用最先进的transformer架构?3如何最好地利用微调?

2024-05-15 10:24:17 437

原创 论文解读:Matching Feature Sets for Few-Shot Image Classification

在图像分类中,通常的做法是训练深度网络提取每个输入图像的单个特征向量。少样本分类方法也大多遵循这一趋势。在这项工作中,我们偏离了这个既定的方向,而是提出为每张图像提取特征向量集。我们认为,基于集合的表示本质上是从基类构建更丰富的图像表示,随后可以更好地转移到少样本分类。为了做到这一点,我们建议调整现有的特征提取器,而不是从图像中产生特征向量集。我们的方法,称为SetFeat,在现有的编码器架构中嵌入了浅层的自关注机制。注意力模块是轻量级的,因此我们的方法产生的编码器具有与其原始版本大致相同数量的参数。

2024-05-15 10:20:01 437

原创 论文解读:ESPT: A Self-Supervised Episodic Spatial Pretext Task for Improving Few-Shot Learning

自监督学习(SSL)技术最近被集成到少样本学习 (FSL)框架中,并在提高少样本图像分类性能方面显示出令人鼓舞的结果。然而,FSL中使用的现有SSL方法通常是从每幅图像的全局嵌入中寻求监督信号。因此,在FSL的情景训练中,这些方法不能捕获和充分利用图像样本中的局部视觉信息和整个事件的数据结构信息,而这些信息对FSL是有利的。为此,我们提出了一种新的自监督情景空间预训练任务(ESPT)来增强少样本学习目标。

2024-05-14 13:40:46 895 1

原创 论文解读:Self-Prompt Mechanism for Few-Shot Image Recognition

少样本学习提出了一个巨大的挑战,因为它需要基于有限的示例集有效地识别新类。最近的研究试图通过利用外部文本提示来调整视觉特征,以解决罕见样本的挑战。然而,由于提示文本和图像特征之间固有的模态差异,这些方法的性能受到限制。我们提出了一种新的自提示机制(SPM)来根据未知数据自适应地调整神经网络,而不是纯粹地利用文本生成的外部语义信息来指导图像编码器的训练。

2024-05-14 13:35:35 1325 4

原创 论文解读:(PromptSRC)Self-regulating Prompts: Foundational Model Adaptation without Forgetting

对于各种下游任务,提示学习已经成为对基础模型(如CLIP)进行微调的有效替代方法。传统上使用特定于任务的目标进行训练,即交叉熵损失,提供的提示倾向于过度拟合下游数据分布,并且发现从冻结的CLIP中捕获与任务无关的一般特征具有挑战性。这导致了模型原有泛化能力的丧失。为了解决这个问题,我们的工作引入了一个名为PromptSRC(带有自我调节约束的提示)的提示自正则化框架。

2024-05-13 14:21:09 1341 2

原创 论文解读:(kgCoOp)Visual-Language Prompt Tuning with Knowledge-guided Context Optimization

由于具体的文本知识是从带标记的少量样本中推断出来的,它对可见的类是有区别的,而对不可见的类是有偏差的,这会导致在不可见的域上的性能变差。例如,非训练CLIP在未见类上获得比基于CoOP的方法更高的New准确率,例如CLIP/CoOP/ CoOP的准确率为74.22%/63.22%/71.69%。CLIP在不可见类上的优异性能验证了它的通用文本知识对不可见类具有更好的泛化能力。然而,基于CoOp的方法推导出的特定文本知识往往会忘记基本的一般文本知识,称为灾难性知识遗忘,即服务灾难性遗忘越多,性能下降越大...

2024-05-13 14:13:43 1254 1

原创 论文解读:(CAVPT)Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model

随着大型预训练视觉语言模型(如CLIP)的出现,可转移表征可以通过及时调整适应广泛的下游任务。从存储在预训练模型中的一般知识中,提示调优探测下游任务的有益信息。最近提出了一种名为上下文优化(CoOp)的方法,该方法从语言方面引入了一组可学习向量作为文本提示。然而,单独调整文本提示符只能调整合成的“分类器”,而不能影响图像编码器的计算视觉特征,从而导致次优解。在本文中,我们提出了一种新的双模态提示调谐(DPT)范式,通过同时学习文本和视觉提示。

2024-04-26 15:47:13 1190 2

原创 论文解读:Label Hallucination for Few-Shot Classification

尽管新类的标签并不能“恰如其分”地表示基数据集中的样本,但是很多基数据集的样本会包含与新类中相似的对象,例如,基数据集中的老虎和新类中的猫有相似的特征,那么就有60%的概率将老虎打上猫的标签;或者基数据集中的图片与新类中的图片有背景相似,比如“car”和“pedestrians”即车和行人的背景可能都是街道,那么打完伪标签后,两幅图的标签很有可能相同。而我们通过伪标签数据集来微调整个模型,训练网络识别基数据集上的这些相似特性或背景线索,从而将representation转向对新类识别有用的特征。

2024-04-26 15:28:13 803 2

原创 论文解读:(BLIP)Bootstrapping Language-Image Pre-training for Unified Vision-Language

视觉语言预训练(VLP)提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型只擅长基于理解的任务或基于生成的任务。此外,性能的提高很大程度上是通过使用从网络收集的噪声图像-文本对扩展数据集来实现的,这是一种次优的监督来源。本文提出了一种新的VLP框架BLIP,它可以灵活地转移到视觉语言理解和生成任务中。BLIP通过引导标题有效地利用了带有噪声的web数据,其中标题生成合成标题,滤波器去除噪声。

2024-04-25 16:48:33 1399 1

原创 论文解读:(BEIT-3)Image as a Foreign Language: BEIT Pretraining for All Vision and Vision-Language Tasks

语言、视觉和多模态预训练的大融合正在出现。在这项工作中,我们介绍了一个通用的多模态基础模型BEIT-3,它在视觉和视觉语言任务上实现了最先进的迁移性能。具体来说,我们从主干架构、预训练任务和模型扩展三个方面推进了大收敛。我们介绍了用于通用建模的多路Transformers,其中模块化体系结构支持深度融合和特定于模态的编码。基于共享主干,我们以统一的方式对图像(英语)、文本(英语)和图像-文本对(“平行句”)执行掩码“语言”建模。

2024-04-25 16:43:42 1382

原创 神经网络之网络基础 常见学习方法

误差修正学习也叫 Delta 学习规则 。 误差修正学习通常与监督学习一起使用,是将系统输出与期望输出值进行比较,并使用该误差来改进模型参数 。最直接的方法是可以使用误差值来调整权值,使用诸如反向传播算法的方式 。 误差修正学习方法尝试在每次训练迭代时最小化该误差信号 。 采用误差修正学习的最流行的学习算法是反向传播算法。

2024-04-24 18:06:02 1063

原创 神经网络之网络基础 神经网络概述与神经元

学术界中有着各种各样的神经网络模型,例如感知器、馈型神经网络、卷积神经网络、循环神经网络、组织映射等。这些不同的神经网络模型的差异主要在于神经元的激活规则、神经网络模型的拓扑结构以及参数的学习算法等。神经元激活规则:主要针对神经元的输入到输出之间的映射关系 ,通常是非线性函数,也被称作激活函数 ;神经网络模型的拓扑结构:主要是指神经元之间的关联关系,主要包括层数、连接方式(全连接或非全连接)、连接权值等,其中连接权值是神经网络中不断学习和调整的参数 ;

2024-04-24 18:03:19 698

原创 论文解读:(UPL)Unsupervised Prompt Learning for Vision-Language Models

像CLIP这样的对比视觉语言模型在迁移学习方面已经取得了很大的进展。在推理阶段,需要精心设计适当的文本描述,也称为提示,以正确分类给定的图像。为了避免费力的提示工程,最近的工作,如CoOp, CLIP-Adapter和Tip-Adapter提出了适应视觉语言模型的下游图像识别任务在一小组标记数据上。虽然实现了有希望的改进,但要求来自目标数据集的标记数据可能会限制可伸缩性。在本文中,我们探索了一种不同的场景,其中目标数据集的标签没有提供,我们提出了一种无监督提示学习(UPL)方法,以避免提示工程...

2024-04-22 17:35:07 1380

原创 论文解读:(VPT)Visual Prompt Tuning

目前适应预训练模型的操作方法涉及更新所有骨干参数,即全面微调。本文介绍了视觉提示调谐(Visual Prompt Tuning, VPT)作为一种有效的替代方案,在视觉上对大型变压器模型进行全微调。从高效调优大型语言模型的最新进展中获得灵感,VPT在保持模型主干冻结的同时,仅在输入空间中引入少量(不到模型参数的1%)可训练参数。

2024-04-22 17:22:59 1749 1

原创 Pytorch 之torch.nn初探 池化--Pooling Layers

本关任务:本关提供了一个Variable 类型的变量x,要求按照条件创建一个Conv2d变量conv,一个MaxPool2d变量pool,对x应用卷积和最大池化操作并赋值给变量outpout_pool,并输出outpout_pool 的大小。

2024-04-20 14:27:49 1061

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除