十有久诚-CSDN博客

原创图解Mamba——从流体力学的角度理解Mamba

跟Transformer的自注意力机制相比，Transformer的自注意力机制更强调个体的独立性，能够捕捉长长距离的上下文依赖关系。而Mamba更强调整体性与全局关系，利用李指数映射实现状态更新与决策。因此，有人认为Mamba在NLP领域是不可能成功的。在NLP领域里边的这种文本的建模非常重要的一点就是长距离依赖的一个建模。Mamba在超过1000token一的这个长度下，它的建模就做不好了。而大模型最有珍贵价值的一点就在于它的这样的一个长距离的一个建模。但是Mamba在CV领域是有很大用处的...

2024-06-12 22:16:52 2161 2

原创 ProGrad:Prompt-aligned Gradient for Prompt Tuning

由于像CLIP[37]这样的大型预训练视觉语言模型(VLM)，我们可以通过离散提示设计来制作零射击分类器，例如，如果图像与提示句子“a photo of a [CLASS]”具有相似性，则可以使用VLM来获得图像为“[CLASS]”的置信分数。此外，如果我们用少量样本微调软提示，提示显示出vlm快速适应下游任务的巨大潜力。然而，我们发现了一个常见的失败，即不适当的微调或使用极少的样本进行学习，甚至可能导致零样本预测的效果不佳。

2024-08-15 14:19:41 863

原创 Progressive Multi-modal Conditional Prompt Tuning

预训练的视觉语言模型(VLMs)通过提示显示出显著的泛化能力，它利用VLMs作为知识库来提取对下游任务有益的信息。然而，现有方法主要采用单模态提示，仅涉及单模态分支，无法同时调整视觉语言(V-L)特征。此外，VLM编码中的一遍前向管道难以对齐有巨大差距的V-L特性。面对这些挑战，我们提出了一种新的方法——渐进式多模态条件提示微调(Prompt)。ProMPT利用循环结构，通过迭代利用图像和当前编码信息来优化和对齐V-L特征。它包括一个初始化模块和一个多模态迭代演化模块。

2024-08-15 14:16:45 982

原创 Alleviating Hallucination in Multi-Modal Large Language Models

幻觉是多模态大型语言模型(MLLMs)面临的普遍挑战，严重阻碍了它们在需要精确判断的现实世界中的使用。现有的方法通过使用特定设计的数据进行培训或使用来自其他来源的外部知识进行推理来缓解这一问题，从而产生不可避免的额外成本。在本文中，我们提出了OPERA，一种基于过度信任惩罚和回顾分配策略的新型MLLM解码方法，作为几乎free lunch来缓解幻觉问题，而无需额外的数据，知识或训练。

2024-08-14 16:19:45 1270

原创 A Survey on Hallucination in Large Language Models:Principles, Taxonomy, Challenges, Open Question

最近，大型语言模型(LLMs)的出现(OpenAI, 2022;谷歌,2023;赵等人;2023b)引领了自然语言处理(NLP)的范式转变，在语言理解方面取得了前所未有的进步(Hendrycks et al.， 2021;Huang et al.， 2023c)，生成(Zhang et al.， 2023f;Zhu et al.， 2023b)和推理(Wei et al .， 2022;小岛等人，2022;乔等，2022;Yu等，2023a;

2024-08-14 16:15:30 921

原创 LoRA微调大语言模型Bert

LoRA是一种流行的微调大语言模型的手段，这是因为LoRA仅需在预训练模型需要微调的地方添加旁路矩阵。LoRA 的作者们还提供了一个易于使用的库 loralib，它极大地简化了使用 LoRA 微调模型的过程。这个库允许用户轻松地将 LoRA 层添加到现有的模型架构中，而无需深入了解其底层实现细节。这使得 LoRA 成为了一种非常实用的技术，既适合研究者也适合开发人员。下面给出了一个LoRA微调Bert模型的具体例子。我们给出了通过LoRA来微调Bert模型中自注意力矩阵的具体代码。，并且添加旁路低秩矩阵。

2024-08-13 15:49:17 548

原创经典结构Transformer解读

谷歌公司在2017年发布了革命性的Transformer结构。Transformer最初是为机器翻译任务而设计的，然而由于其出色的特征学习能力，特别是在NLP领域上长距离的建模能力使其继卷积神经网络CNN和RNN之后，成为了语言建模最流行的结构。因此，现在的大语言模型大多数以Transformer结构为基础来进行训练。基于 Transformer 结构的编码器（Encoder，图左侧）和解码器（Decoder，图右侧）结构如图所示。

2024-08-13 15:47:19 1068

原创 latex常见符号、用法及希腊字母、花体字母

latex中拥有三种花体：1.复数域用到的bb数学A,B,C\mathbb{A},\mathbb{B},\mathbb{C}A,B,C: \mathbb{A},\mathbb{B},\mathbb{C}2.cal数学X,A,B\mathcal{X},\mathcal{A},\mathcal{B}X,A,B:\mathcal{X},\mathcal{A},\mathcal{B}3.拉氏变换用到的scr数学X,A,B\mathscr{X},\mathscr{A},\mathscr{B}X,A,B:\ma

2024-08-12 14:55:54 542

原创 DePT: Decoupled Prompt Tuning

现有的提示调优方法通常无法摆脱Base-New Tradeoff(BNT)困境，即调优/调整的模型对基本任务的泛化效果越好，对新任务的泛化效果就越差(包含不可见的类)，反之新任务的泛化效果越好，所需要的代价便是基本任务的泛化效果越差。作者最终达到的结果便是：Base和New的准确率上同时得到提升。

2024-08-12 14:48:46 1274

原创 MVPT: Multitask Vision-Language Prompt Tuning

最近的大规模视觉语言模型，在自然语言监督下对各种各样的图像进行预训练(即CLIP [67]， ALIGN[38]和Florence [96])在野外图像分类[50,67]和开放词汇检测[29]方面表现出较强的开放集识别能力。尽管具有令人印象深刻的zero-shot传输能力，但将这些大规模视觉语言模型应用于下游任务存在自身的挑战。由于巨大的参数大小和众所周知的过拟合问题，对整个模型进行微调通常是令人望而却步的。

2024-07-10 16:39:28 1237 1

原创 DFT: Parameter-Efficient Fine-Tuning with Discrete Fourier Transform

近年来，低秩自适应(LoRA)在基础模型的微调方面引起了广泛的关注。通过引入低秩矩阵AAA和BBB来表示权重变化，即ΔWBAΔWBA，有效地减少了可训练参数的数量。尽管LoRA取得了进步，但在处理广泛的定制调整或更大的基本模型时，它面临着存储方面的挑战。在这项工作中，我们的目标是利用傅里叶变换的强大表现力进一步压缩可训练参数。具体来说，我们引入傅里叶变换，它将ΔW\Delta WΔW作为空间域中的矩阵，并且只学习其光谱系数的一小部分。

2024-07-10 16:34:30 1146

原创 AdaBoost集成学习算法理论解读以及公式为什么这么设计?

下面以二分类任务(标签不是为-1，就是为+1)为例介绍该算法的具体过程。值得注意的是，下面的公式推导是以二分类任务下得出来，所以公式(比如样本权重更新公式)才会显得比较整洁，但如果换成其他任务，如多分类，那么公式会复杂很多。AdaBoost集成学习算法基本上遵从Boosting集成学习思想，通过。，然后通过加权投票等方式将这些弱学习器集成起来得到性能较优的集成模型。倍，以便在后续弱学习器构造过程得到应有的重视。的权重取值应与其分类性能相关，对于分类错误率。为归一化因子，保证更新后权重向量为概率分布；

2024-07-09 22:16:39 1365

原创 MoRA: High-Rank Updating for Parameter-Efficient Fine-Tuning

低秩自适应(Low-rank adaptation, LoRA)是一种针对大型语言模型的参数有效微调(PEFT)方法。在本文中，我们分析了在LoRA中实现的低秩更新的影响。我们的研究结果表明，低等级的更新机制可能会限制LLM有效学习和记忆新知识的能力。受此启发，我们提出了一种新的方法，称为MoRA，该方法采用方阵来实现高秩更新，同时保持相同数量的可训练参数。为了实现这一目标，我们引入了相应的非参数算子来减少方阵的输入维数和增加输出维数。

2024-07-09 14:54:35 1333

原创 LORAHUB: EFFICIENT CROSS-TASK GENERALIZATION VIA DYNAMIC LORA COMPOSITION

低秩适应(Low-rank adaptations,LoRA)通常用于为新任务微调大型语言模型(LLM)。本文研究了跨任务泛化的LoRA可组合性，并介绍了LoraHub，这是一个简单的框架，用于有目的地组装在不同给定任务上训练的LoRA模块，目的是在未知任务上实现自适应性能。只需新任务中的几个示例，LoraHub就可以流畅地组合多个LoRA模块，从而消除了对人工专业知识和假设的需求。值得注意的是，该组合既不需要额外的模型参数，也不需要梯度。

2024-07-09 14:48:16 720

原创 FD-Align: Feature Discrimination Alignment for Fine-tuning Pre-Trained Models in Few-Shot Learning

由于数据的可用性有限，现有的小样本学习方法不能达到令人满意的效果。相比之下，大规模的预训练模型，如CLIP，展示了显著的few-shot和zero-shot能力。为了提高下游任务的预训练模型的性能，经常需要对下游数据的模型进行微调。然而，在分布移位的情况下，对预训练模型进行微调会导致其泛化能力下降，而在少数样本学习中，有限的样本数量使模型极易出现过拟合的情况。因此，现有的微调小样本学习方法主要集中在微调模型的分类头或引入额外的结构。在本文中，我们介绍了一种称为特征识别对齐(FD-Align)的微调方法。

2024-07-08 14:22:09 916

原创 PDA:Prompt-based Distribution Alignment for Unsupervised Domain Adaptation

最近，尽管大型预训练视觉语言模型(VLMs)在广泛的下游任务上取得了前所未有的成功，但现实世界的无监督域自适应(UDA)问题仍然没有得到很好的探索。因此，在本文中，我们首先通过实验证明了无监督训练的VLMs可以显著降低源域和目标域之间的分布差异，从而提高UDA的性能。然而，直接在下游UDA任务上部署这种模型的一个主要挑战是提示工程，这需要对齐源领域和目标领域的领域知识，因为UDA的性能受到良好的领域不变表示的严重影响。我们进一步提出了一种基于提示的分布对齐方法，将领域知识整合到提示学习中。

2024-07-08 14:16:55 784 1

原创 PromptMRG: Diagnosis-Driven Prompts for Medical Report Generation

医学报告自动生成(MRG)有很大的研究价值，因为它有可能减轻放射科医生繁重的报告编写负担。尽管最近取得了进展，但由于需要精确的临床理解和疾病识别，准确的MRG仍然具有挑战性。此外，疾病分布的不平衡使得挑战更加明显，因为罕见疾病在训练数据中的代表性不足，使其诊断性能不可靠。为了应对这些挑战，我们提出了诊断驱动的医疗报告生成提示(PromptMRG)，这是一个新的框架，旨在通过诊断感知提示的指导提高MRG的诊断准确性。具体来说，PromptMRG是基于编码器-解码器架构，并带有一个额外的疾病分类分支。

2024-06-15 14:23:22 972

原创 PPT: Pre-trained Prompt Tuning for Few-shot Learning

预训练语言模型(PLMs)的提示通过弥合预训练任务和各种下游任务之间的差距，显示出了显著的性能。在这些方法中，提示调优(prompt tuning)冻结PLM，只调整软提示，为大规模PLM适应下游任务提供了一种高效的解决方案。然而，提示调整尚未得到充分的探索。在我们的先导实验中，我们发现当下游数据充足时，提示调优的性能与传统的全模型调优相当，而在小样本学习设置下，提示调优的性能要差得多，这可能会阻碍提示调优的应用。我们将这种低性能归因于初始化软提示的方式。因此，在本工作中，我们。

2024-06-14 14:09:06 1213

原创 LAMM: Label Alignment for Multi-Modal Prompt Learning

随着预训练的视觉语言模型(如CLIP)在视觉表征任务中的成功，将预训练的模型转移到下游任务已成为一个重要的范式。近年来，受自然语言处理(NLP)启发的提示调优范式在VL领域取得了重大进展。然而，之前的方法主要侧重于构建文本和视觉输入的提示模板，而忽略了VL模型与下游任务之间类标签表示的差距。为了解决这一挑战，我们引入了一种创新的标签对齐方法LAMM，该方法可以通过端到端训练动态调整下游数据集的类别嵌入。此外，为了实现更合适的标签分布，我们提出了一种分层损失，包括参数空间、特征空间和logits空间的对齐。

2024-06-14 14:04:35 1387

原创 ADALORA: ADAPTIVE BUDGET ALLOCATION FOR PARAMETER-EFFICIENT FINE-TUNING

在下游任务上对大型预训练语言模型进行微调已经成为自然语言处理的一个重要范例。然而，通常的做法是对预训练模型中的所有参数进行微调，当存在大量下游任务时，这变得令人望而却步。因此，提出了许多微调方法，以参数有效的方式学习预训练权值的增量更新，例如低秩增量。这些方法通常在所有预训练的权重矩阵上均匀地分配增量更新预算，而忽略了不同权重参数的不同重要性。因此，调优性能不是最优的。为了弥补这一差距，我们提出了AdaLoRA算法，该算法根据权重矩阵的重要性评分自适应地在权重矩阵之间分配参数预算。

2024-06-13 13:46:40 1120

原创 LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

自然语言处理的一个重要范例是对一般领域数据进行大规模预训练，并适应特定的任务或领域。当我们预训练更大的模型时，重新训练所有模型参数的完全微调变得不太可行。以GPT-3 175B为例，部署独立的微调模型实例，每个实例都有175B参数，这是非常昂贵的。我们提出了低秩自适应(Low-Rank Adaptation, LoRA)，它冻结了预训练的模型权重，并将可训练的秩分解矩阵注入到Transformer架构的每一层，从而大大减少了下游任务的可训练参数的数量。

2024-06-13 13:43:02 979

原创集成算法实验(Bagging策略)

Bagging：训练多个分类器取平均fx1/M∑m1Mfmx全称： bootstrap aggregation（说白了就是训练一堆分类器）最典型的代表就是随机森林，现在Bagging模型基本上也是随机森林。随机：数据采样随机，；数据有多个特征(属性)组成，。随机是为了使得每个分类器拥有明显差异性。森林：很多个决策树并行放在一起如何对所有树选择最终结果？分类的话可以采取少数服从多数，回归的话可以采用取平均值。

2024-06-12 22:23:21 1184

原创集成算法实验与分析(软投票与硬投票)

集成算法（Ensemble Methods）是一种机器学习策略，其核心思想是通过组合多个基础模型（Base Learners）的预测结果来构建一个更强的预测模型。这种方法利用了“群体智慧”的概念，认为一群弱模型（即单独表现一般的基础模型）的集体决策通常会优于单个强模型的表现。集成算法能够提高预测的准确性、稳定性和泛化能力，减少过拟合的风险。

2024-06-02 22:28:40 411

原创知识蒸馏Matching logits与RocketQAv2(公式清晰版)

teacher model可以生成soft label，相比于原始数据的hard label，包含了更多信息量。所以很多时候你与其说直接用一个数据集去训练一个模型，你还不如用这个数据集先训练一个大a模型比a模型要大的模型。再让大a模型去教会a模型去做，有可能效果就更好。就是因为大a模型这个teacher model可以生成soft label相比于原始数据的hard label，可以包含更多的信息量，从而就天然的有一种去燥的一种功能。

2024-06-02 21:12:48 1093

原创集成算法：Bagging模型、AdaBoost模型和Stacking模型

最典型的代表就是随机森林，现在Bagging模型基本上也是随机森林。随机：数据采样随机，每棵树只用部分数据；数据有多个特征(属性)组成，每棵树随机选择部分特征。随机是为了使得每个分类器拥有明显差异性。森林：很多个决策树并行放在一起。如何对所有树选择最终结果？分类的话可以采取少数服从多数，回归的话可以采用取平均值。

2024-06-02 21:03:56 1249

原创 MedCLIP:Contrastive Learning from Unpaired Medical Images and Text

现有的视觉-文本对比学习，如CLIP (Radford等人，2021)旨在匹配配对的图像和标题嵌入，同时将其他嵌入分开，从而提高表征可转移性并支持零差预测。然而，医学图像-文本数据集比来自互联网的一般图像和说明文字要低几个数量级。此外，以前的方法遇到了许多假阴性，即来自不同患者的图像和报告可能具有相同的语义，但被错误地视为阴性。在本文中，我们将图像和文本解耦用于多模态对比学习，从而以低成本的组合幅度缩放可用的训练数据。我们还提出用基于医学知识的语义匹配损失代替InfoNCE损失，以消除对比学习中的假阴性。

2024-05-20 14:08:57 1419

原创 Few-Shot Learning with Part Discovery and Augmentation from Unlabeled Images

少样本学习是一项具有挑战性的任务，因为只有很少的实例可以用来识别未见过的类。缓解这个问题的一种方法是通过类似任务的元学习获得强归纳偏见。在本文中，我们证明了这种归纳偏差可以从未标记图像的平面集合中学习，并实例化为可见类和未见类之间的可转移表示。具体来说，我们提出了一种新的基于部分的自监督表征学习方案，通过最大化图像与其判别部分的相似性来学习可转移表征。为了缓解由于数据稀缺性导致的少样本分类中的过拟合问题，我们进一步提出了一种从基础数据集中检索额外图像的部分增强策略。

2024-05-20 13:55:22 1185

原创搜索算法解决八数码问题

搜索算法解决八数码问题（1）熟悉人工智能系统中的问题求解过程；（2）熟悉状态空间中的盲目搜索策略；（3）掌握盲目搜索算法，重点是宽度优先搜索和深度优先搜索算法。

2024-05-18 14:22:55 941

原创 AlphaBeta剪枝算法求解博弈树最优选择

博弈树的输入形式为字符串：[A, [B, (E, 3), (F, 12), (G, 8)], [C, (H, 2), (I, 4), (J, 6)], [D, (K, 14), (L, 5), (M, 2)]]，其中 [] 里的第一项为结点名称，后面的 [] 或 () 为子结点，而 () 里边则为叶子结点名称及其值。通过 Python 中的 ast.literal_eval 模块可以将该字符串数据解析为数据在 Python 数据类型里本应该存在的形式。

2024-05-18 14:19:00 959

原创 CROSS-DOMAIN FEW-SHOT CLASSIFICATION VIA LEARNED FEATURE-WISE TRANSFORMATION

少样本分类旨在识别新类别，每个类别中只有很少的标记图像。现有的基于度量的少样本分类算法通过使用学习的度量函数将查询图像的特征嵌入与少数标记图像(支持示例)的特征嵌入进行比较来预测类别。虽然这些方法已经证明了良好的性能，但由于域间特征分布的巨大差异，这些方法往往不能推广到未见过的域。在这项工作中，我们解决了基于度量的方法在域移位下的少样本分类问题。我们的核心思想是在训练阶段使用特征转换层来增强图像特征，使用仿射变换来模拟不同域下的各种特征分布。

2024-05-17 14:00:34 804

原创 BECLR: BATCH ENHANCED CONTRASTIVE FEW-SHOT LEARNING

无监督的少样本学习(U-FSL)希望通过在训练时放弃对注释的依赖来弥合这一差距。对比学习方法在U-FSL领域的成功引起了我们的兴趣，我们从结构上探讨了它们在预训练和下游推理阶段的缺点。我们提出了一种新的动态聚类记忆(DyCE)模块，以促进高度可分离的潜在表示空间，以增强预训练阶段的正采样，并将隐式类水平的见解注入无监督对比学习中。然后，我们在少样本推理阶段处理样本偏差问题，这在某种程度上被忽视了，但很关键。

2024-05-17 13:55:47 825 1

原创 Supervised Masked Knowledge Distillation for Few-Shot Transformers

Vision transformer, ViTs 通过捕获局部特征之间的远程依赖关系，在许多数据丰富的计算机视觉任务中获得了令人印象深刻的性能。然而，在只有少量标记数据的小数据集上的few-shot learning (FSL)设置下，由于缺乏类似cnn的归纳偏差，ViT倾向于过拟合并遭受严重的性能下降。以前在FSL中的工作要么通过帮助自监督辅助损失，要么通过在监督设置下灵巧地使用标签信息来避免这一问题。但自我监督和被监督的少样本transformer之间的差距仍然没有填补。

2024-05-16 14:43:36 502 3

原创 Self-Promoted Supervision for Few-Shot Transformer

vision transformers(ViTs)的少样本学习能力虽然被广泛关注，但很少被研究。在这项工作中，我们通过经验发现，在相同的少样本学习框架(例如MetaBaseline)中，用ViT模型代替广泛使用的CNN特征提取器通常会严重损害少样本分类性能。此外，我们的实证研究表明，在没有归纳偏差的情况下，vit通常在只有少数标记训练数据可用的few-shot学习机制下学习低质量令牌依赖关系，这在很大程度上导致了上述性能下降。为了缓解这一问题，我们首次提出了一个简单而有效的vit训练框架，即自我促进式监督。

2024-05-16 14:30:54 493

原创论文解读：Pushing the Limits of Simple Pipelines for Few-Shot Learning External Data and Fine-Tuning Make

少样本学习(Few-shot learning, FSL)是计算机视觉领域的一个重要热点问题，它激发了从复杂的元学习方法到简单的迁移学习基线等多种方法的广泛研究。我们试图在实践中推动简单但有效的流水线对真实世界的少样本图像分类的限制。为此，我们从神经结构的角度探讨了少样本学习，以及外部数据的预训练，标记少样本任务的元训练，以及对未见任务的任务特定微调的三个阶段管道。我们调查了以下问题:1外部数据的预训练如何使FSL受益?如何利用最先进的transformer架构?3如何最好地利用微调?

2024-05-15 10:24:17 458

原创论文解读：Matching Feature Sets for Few-Shot Image Classification

在图像分类中，通常的做法是训练深度网络提取每个输入图像的单个特征向量。少样本分类方法也大多遵循这一趋势。在这项工作中，我们偏离了这个既定的方向，而是提出为每张图像提取特征向量集。我们认为，基于集合的表示本质上是从基类构建更丰富的图像表示，随后可以更好地转移到少样本分类。为了做到这一点，我们建议调整现有的特征提取器，而不是从图像中产生特征向量集。我们的方法，称为SetFeat，在现有的编码器架构中嵌入了浅层的自关注机制。注意力模块是轻量级的，因此我们的方法产生的编码器具有与其原始版本大致相同数量的参数。

2024-05-15 10:20:01 487

原创论文解读：ESPT: A Self-Supervised Episodic Spatial Pretext Task for Improving Few-Shot Learning

自监督学习(SSL)技术最近被集成到少样本学习 (FSL)框架中，并在提高少样本图像分类性能方面显示出令人鼓舞的结果。然而，FSL中使用的现有SSL方法通常是从每幅图像的全局嵌入中寻求监督信号。因此，在FSL的情景训练中，这些方法不能捕获和充分利用图像样本中的局部视觉信息和整个事件的数据结构信息，而这些信息对FSL是有利的。为此，我们提出了一种新的自监督情景空间预训练任务(ESPT)来增强少样本学习目标。

2024-05-14 13:40:46 923 1

原创论文解读：Self-Prompt Mechanism for Few-Shot Image Recognition

少样本学习提出了一个巨大的挑战，因为它需要基于有限的示例集有效地识别新类。最近的研究试图通过利用外部文本提示来调整视觉特征，以解决罕见样本的挑战。然而，由于提示文本和图像特征之间固有的模态差异，这些方法的性能受到限制。我们提出了一种新的自提示机制(SPM)来根据未知数据自适应地调整神经网络，而不是纯粹地利用文本生成的外部语义信息来指导图像编码器的训练。

2024-05-14 13:35:35 1366 4

原创论文解读：(PromptSRC)Self-regulating Prompts: Foundational Model Adaptation without Forgetting

对于各种下游任务，提示学习已经成为对基础模型(如CLIP)进行微调的有效替代方法。传统上使用特定于任务的目标进行训练，即交叉熵损失，提供的提示倾向于过度拟合下游数据分布，并且发现从冻结的CLIP中捕获与任务无关的一般特征具有挑战性。这导致了模型原有泛化能力的丧失。为了解决这个问题，我们的工作引入了一个名为PromptSRC(带有自我调节约束的提示)的提示自正则化框架。

2024-05-13 14:21:09 1449 2

原创论文解读：(kgCoOp)Visual-Language Prompt Tuning with Knowledge-guided Context Optimization

由于具体的文本知识是从带标记的少量样本中推断出来的，它对可见的类是有区别的，而对不可见的类是有偏差的，这会导致在不可见的域上的性能变差。例如，非训练CLIP在未见类上获得比基于CoOP的方法更高的New准确率，例如CLIP/CoOP/ CoOP的准确率为74.22%/63.22%/71.69%。CLIP在不可见类上的优异性能验证了它的通用文本知识对不可见类具有更好的泛化能力。然而，基于CoOp的方法推导出的特定文本知识往往会忘记基本的一般文本知识，称为灾难性知识遗忘，即服务灾难性遗忘越多，性能下降越大...

2024-05-13 14:13:43 1290 1

原创论文解读：(CAVPT)Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model

随着大型预训练视觉语言模型(如CLIP)的出现，可转移表征可以通过及时调整适应广泛的下游任务。从存储在预训练模型中的一般知识中，提示调优探测下游任务的有益信息。最近提出了一种名为上下文优化(CoOp)的方法，该方法从语言方面引入了一组可学习向量作为文本提示。然而，单独调整文本提示符只能调整合成的“分类器”，而不能影响图像编码器的计算视觉特征，从而导致次优解。在本文中，我们提出了一种新的双模态提示调谐(DPT)范式，通过同时学习文本和视觉提示。

2024-04-26 15:47:13 1269 2

空空如也

空空如也