Prompt CV
文章平均质量分 89
我好想吃烤地瓜
我也想吃奥利奥
展开
-
CVPR24_Global and Local Prompts Cooperation via Optimal Transport for Federated Learning
在预训练的视觉-语言模型中进行提示学习已经在各种下游任务中展现出灵活性,利用其固有的轻量级特性,最近的研究尝试将强大的预训练模型集成到联邦学习框架中,以同时降低通信成本并促进对数据缺乏的本地模型训练当前的联邦提示学习方法缺乏专门的设计来系统地解决严重的数据异质性,例如,涉及标签和特征偏移的数据分布。原创 2024-04-03 01:10:45 · 955 阅读 · 1 评论 -
ICLR24_ANOMALYCLIP: OBJECT-AGNOSTIC PROMPT LEARNING FOR ZERO-SHOT ANOMALY DETECTION
至关重要,采用“damaged [cls]”来覆盖全面的异常语义,加强对各种缺陷(如划痕和孔洞)的检测。然而,利用这种文本提示模板在生成通用的区分异常的文本嵌入方面存在挑战。CLIP原始预训练专注于与对象语义对齐,而不是图像中的异常/正常性。为了解决这个限制,原创 2024-04-02 22:30:11 · 916 阅读 · 0 评论 -
CVPR24_Domain-Agnostic Mutual Prompting for Unsupervised Domain Adaptation
传统的无监督域自适应(UDA)旨在最小化域之间的分布差异,但忽略了从数据中获取丰富语义的潜力,并且难以处理复杂的域偏移。利用大规模预训练的VLMs的知识可以进行更有导向性的适应。现有方法通常是分别学习文本提示以嵌入源域/目标域的语义,并在每个域内进行分类,限制了跨域知识迁移的能力。此外,仅提示语言分支缺乏动态适应两种模态的灵活性。原创 2024-04-01 22:46:26 · 1891 阅读 · 0 评论 -
ICLR24_CONSISTENCY-GUIDED PROMPT LEARNING FOR VISION-LANGUAGE MODELS
提出了一种名为一致性引导提示学习(Consistency-guided Prompt learning,CoPrompt)的微调方法。CoPrompt在少样本设置下微调后,可以改善大模型在下游任务中的泛化能力。CoPrompt的基本思想是在。原创 2024-04-01 20:39:02 · 878 阅读 · 0 评论 -
CVPR24_ArGue: Attribute-Guided Prompt Tuning for Vision-Language Models
尽管软提示微调在调整视觉语言模型以适应下游任务方面表现出色,但在处理分布偏移方面存在局限性,通过属性引导提示微调(Attribute-Guided,ArGue)来解决这个问题。原创 2024-04-01 19:09:48 · 2090 阅读 · 0 评论 -
LEARNING TO DECOMPOSE VISUAL FEATURES WITH LATENT TEXTUAL PROMPTS
像 CLIP 这样的预训练视觉语言模型的最新进展显示出在学习可迁移视觉表征方面的巨大潜力。为了综合优势,提出了特征分解提示 (DeFo)。DeFo 保留了双模型架构,但利用可学习的嵌入作为文本输入,并使用额外的线性层执行分类。因此 DeFo 能够在文本提示的帮助下提取分解的视觉特征,并允许可扩展大小的文本输入。语言引导的视觉预训练在学习可迁移的图像表征方面得到了广泛的关注。通过建立图像和自然语言之间的联系,最近的视觉语言模型能够将有限数量的类的视觉推理转化为 ZS 开放词汇推理。原创 2023-07-03 17:34:56 · 213 阅读 · 1 评论 -
VPPT: VISUAL PRE-TRAINED PROMPT TUNING FRAMEWORK FOR FEW-SHOT IMAGE CLASSIFICATION
大规模的预训练 ViT 取得了显著的性能提升,由于昂贵的计算和存储成本,对下游任务的模型进行完全微调仍然是极具挑战性的。最近,参数高效调优 (PETuning) 技术,例如 Visual Prompt Tuning (VPT),通过在预训练模型中插入轻量级的提示模块 (包括 Prompt Tokens 或 Adapter 层),并使用少量可训练参数对这些提示模块进行调优,同时保持 Backbone 冻结,从而显著降低了计算成本。原创 2023-07-03 15:31:03 · 211 阅读 · 1 评论 -
INSTANCE-AWARE HIERARCHICAL STRUCTURED POLICY FOR PROMPT LEARNING IN VISION-LANGUAGE MODELS
近年来,可学习提示作为一种主要的提示学习范式出现,增强了大规模视觉语言预训练模型在少量图像分类中的性能。然而,增强方法通常是耗时且不灵活的:为了解决这些问题,受人类从粗到精的决策范式的启发,提出了(IAHSP),该策略使用强化学习的方式集成了特定于实例的提示选择和适当的位置选择。这些方法非常耗时,并且需要知识来确定给定实例中最合适的提示,这严重阻碍了它们的应用。原创 2023-07-03 00:14:15 · 105 阅读 · 1 评论 -
Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models
预先训练的视觉语言模型 (例如 CLIP) 在许多具有适当设计的文本提示的下游任务中显示出有潜力的 ZS 泛化。最近的方法使用来自下游任务的训练数据来学习提示,虽然对特定领域的数据进行训练是有效的,但会降低模型对未知新领域的泛化能力。在这项工作中,提出了测试时提示调优 (TPT),这是一种可以使用单个测试样本动态学习自适应提示的方法。对于图像分类,TPT 通过最小化熵和置信度选择来优化提示,以便模型在每个测试样本的不同增强视图中具有一致的预测。原创 2023-07-02 23:21:34 · 139 阅读 · 1 评论 -
OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal Regression
现有的方法通常将每个 Rank 视为一个类别,并使用一组权重来学习这些概念。由于学习到的概念主要来源于训练集,这些方法容易过拟合,通常效果不理想。最近,像 CLIP 这样的大型预训练视觉语言模型在各种视觉任务中表现出了令人印象深刻的表现。本文从 CLIP 丰富的语义潜在空间中学习秩概念。具体来说,将该任务重新表述为具有对比目标的图像 - 语言匹配问题,标签视为文本,并从每个 Rank 的文本编码器中获得语言原型。原创 2023-07-02 21:42:54 · 129 阅读 · 1 评论 -
AdaptFormer: Adapting Vision Transformers for Scalable Visual Recognition
ViTs 在视觉识别领域取得了巨大成功,后续需要使 ViT 适应各种图像和视频识别任务。由于计算量大、存储空间大,自适应具有一定的挑战性。每个模型都需要一个独立而完整的微调过程来适应不同的任务,这限制了它在不同视觉域的可迁移性。为了解决这一挑战,提出了一种有效的 Transformer 自适应方法,即 AdaptFormer,它可以有效地将预训练的 ViTs 适应于许多不同的图像和视频任务,具有比现有技术更吸引人的几个好处。原创 2023-07-02 14:37:07 · 363 阅读 · 1 评论 -
Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification
CLIP 通过 Zero-shot 知识迁移在下游任务上表现出令人印象深刻的性能。为了进一步提高 CLIP 的自适应能力,现有方法提出对附加可学习模块进行微调,这大大提高了 Few-shot 性能,但引入了额外的训练时间和计算资源。提出了一种无需训练的 CLIP 进行 Few-shot 分类的方法,称为 Tip-Adapter,它不仅继承了 Zero-shot CLIP 无需训练的优点,而且性能与需要训练的方法相当。它们需要更多的计算资源来微调新引入的可学习参数。原创 2023-07-02 13:16:29 · 894 阅读 · 1 评论 -
Prompt Distribution Learning
视觉语言模型如 CLIP 和 ALIGN,为显式地利用人类语言来有效地解决下游识别任务指明方向。通过对比学习来学习图像和文本的对齐嵌入,鼓励图像的表示及其语言描述相似。在下游任务中,提供与任务相关的内容,即类别描述,可以显著地有利于预训练的 VLM 进行识别,甚至可以在没有训练样本的情况下进行 Zero-Shot 识别。使用手工制作的提示模板构建类别描述。默认提示符是 “一个{类}的照片”,适用于一般的对象识别 (例如 ImageNet 和 STL-10),但处理细粒度的目标识别是困难的。原创 2023-07-02 11:12:37 · 350 阅读 · 1 评论 -
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting
为了说明这一点,首先详细描述 CLIP 图像编码器的结构。以 ResNet 编码器为例,总共有4个阶段,我们将特征映射记为。原创 2023-07-01 18:17:23 · 277 阅读 · 0 评论 -
ADAPT: Vision-Language Navigation with Modality-Aligned Action Prompts
视觉语言导航 (VLN) 是一项具有挑战性的任务,它要求智能体执行动作级模态对齐,即在复杂的视觉环境中按顺序做出指令要求的动作。大多数现有 VLN 智能体直接学习指令路径数据,不能充分探索多模态输入中的行动级对齐知识。本文提出了模态对齐动作提示 (ADAPT),它为 VLN 智能体提供动作提示,使其能够明确学习动作级模态对齐以成功导航。Prompt Learning 范式已经显示出巨大的潜力,通过简单地提供由人为设计或根据特定任务目标进行优化的提示,赋予预训练模型多种功能。原创 2023-07-01 16:04:16 · 212 阅读 · 0 评论 -
CLIP-Adapter: Better Vision-Language Models with Feature Adapters
为避免复杂的特征工程,CoOp 等方法通过上下文优化来学习一个有效的 Prompt,Prompt Tuning 大多应用于文本分支,因此提出一种方法在文本 / 图像分支添加适配器。原创 2023-07-01 12:44:03 · 838 阅读 · 0 评论 -
Semantic Prompt for Few-Shot Image Recognition
由于缺乏与底层视觉表征的交互,它们无法提供新类的确切的判别视觉特征。为了缓解这一问题,使用额外的语义信息作为提示,引导视觉特征网络在少量的支持样本下获得具有判别性的类原型,从而使图像可以根据它们与这些原型的距离分类。人类感知系统具有一种独特的视觉感知机制,称为认知穿透性,它利用语言先验知识将正在进行的视觉感知加工调整为与类别相关的激活特征,从而促进对新物体的学习。和视觉特征之间的交互,这种语义丰富的表示具有强大潜力,可以为特征提取器提供关于新类的额外判别性视觉特征,从而产生更一般化的类原型。原创 2023-06-13 16:35:28 · 250 阅读 · 1 评论 -
Prompt, Generate, then Cache: Cascade of Foundation Models makes Strong Few-shot Learners
近年来,基于 CLIP 的方法得益于对比语言-图像预训练,显示出了良好的 FSL 性能。CaFo 结合了 CLIP 的语言对比知识、DINO 的视觉对比知识、DALL-E 的视觉生成知识和 GPT-3 的语言生成知识。利用GPT-3来生成 CLIP 的 Prompt,以更好地与图像中的视觉信息对齐。预训练的 DALL-E 可以在不需要任何人为工作的情况下扩大训练数据,实现时选择 DALL-E-mini。视觉对比模型作为传统的自监督学习方法,关注的是不同图像之间的区分。的分布相似度计算其对集合的权重。原创 2023-06-12 21:49:14 · 446 阅读 · 0 评论 -
MaPLe: Multi-modal Prompt Learning
具体而言,我们在语言分支中附加可学习的上下文标记,并通过耦合函数显式地将视觉 Prompt 置于语言 Prompt 上,以建立它们之间的交互。使用 Prompt 来适应CLIP (语言或视觉) 的单个分支中的表示是次优的,因为它不允许在下游任务上动态调整两个表示空间的灵活性。由此,提出了一种分支感知的多模态 Prompt,通过在两种模态之间共享提示来协调 CLIP 的视觉和语言分支。在 Prompt Tuning 中,必须采取多模态方法获得同时适应 CLIP 的视觉和语言分支,以实现上下文优化的完整性。原创 2023-06-12 20:48:21 · 507 阅读 · 0 评论 -
Hierarchical Prompt Learning for Multi-Task Learning
在多任务学习的背景下,并非所有任务之间的知识都相互受益,将其与 Prompt 结合起来的时候,对所有 Task 都用相同的提示或者为每个 Task 设置自己的提示效果都不如对其进行结合的结果。作者认为,任务独立的 Prompt 会出现过拟合的情况,而完全共享相同的 Prompt 则忽略了一部分的细粒度信息,因此同时学习任务共享和独立的 Prompt,同时提供总体和相关的内容来有效发挥 VLM 的效果。,利用层次聚类构建层次任务树,从而发现任务间共享的较细粒度的知识。原创 2023-06-12 19:12:00 · 331 阅读 · 0 评论 -
Doubly Right Object Recognition: A Why Prompt for Visual Rationales
现有视觉识别方法大多只在分类任务上进行评估,提出一种“Doubly Right”的评测标准,除了要求分类准确,还要求给出合理的解释。在 NLP 领域,通过在输入的时候额外添加一些提示来让模型逐步的进行判断。单个类别的关键特征可能不会完全在给的图像中都出现,不能直接使用生成的全部列表。在获得图像的合理化标注时,相比于耗费成本的人工标注,使用大规模语言模型来实现。充分发挥现有的模型的能力,使其能够说明分类的理由是需要解决的一个问题。使用的模型为预训练的 VLM,损失函数为计算余弦相似度的对比学习形式。原创 2023-06-11 23:14:28 · 76 阅读 · 0 评论