lalula1999-CSDN博客

原创（AAAI，2024）Structure-CLIP：利用场景知识图谱增强多模态结构化表征

大规模视觉-语言预训练在多模态理解和生成任务中取得了显著的性能。然而，现有方法在需要结构化表示的图像-文本匹配任务上表现不佳，即表示对象、属性和关系的能力。模型无法区分“宇航员骑马”和“马骑宇航员”。这是因为它们在学习多模态表示时未能充分利用结构化知识。在本文中，我们提出了一个端到端的框架StructureCLIP，它通过整合场景知识图谱（SGK）来增强多模态结构化表示。首先，我们使用场景图指导构建语义负样本，这增加了学习结构化表示的重视。此外，我们提出了一个知识增强编码器（KEE）

2024-07-21 10:04:45 562

原创（ISPRS，2021）具有遥感知识图谱的鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类

尽管深度学习已经彻底改变了遥感图像场景分类，但当前基于深度学习的方法高度依赖于预定场景类别的大量监督，并且对于超出预定场景类别的新类别表现不佳。实际上，随着涉及遥感图像场景新类别的新应用的出现，分类任务通常需要扩展，因此如何使深度学习模型具备识别训练阶段未预定场景类别之外的未见遥感图像场景的推理能力变得非常重要。本文充分利用遥感领域的特征，从头构建了一个新的遥感知识图谱（RSKG），以支持未见遥感图像场景的推理识别。为了提高面向遥感的场景类别的语义表示能力，本文提出。

2024-07-18 22:18:14 1006 1

原创（NeurIPS，2022）Knowledge-CLIP：使用知识图谱进行CLIP

近年来，大规模预训练框架的发展迅速，这些框架能够以统一的形式提取多模态表征，并在转移到下游任务时展现出有希望的性能。然而，现有的方法主要关注简单的图像-文本对的预训练，而忽略了不同模态概念之间的语义联系。在本文中，我们提出了一个基于知识的知识预训练框架，称为Knowledge-CLIP，它将语义信息注入到广泛使用的CLIP模型中。通过在预训练过程中引入基于知识的目标，并使用不同类型的知识图谱作为训练数据，我们的模型能够在视觉和语言中以更高的质量对表征进行语义对齐，并增强跨场景和模态的推理能力。

2024-07-09 16:01:08 635

原创（TGRS，2024）KG-ZSL：利用基于知识图谱的零样本学习模型识别未知灾难场景

未见类别预测是现实世界应用中的一个常见挑战，特别是在遥感（RS）图像解释领域。基于零样本学习（ZSL）的场景分类方法最近取得了显著进展，为RS领域中未见场景识别提供了一种有效的解决方案，通过语义嵌入将看到和未见类别联系起来。然而，现有的ZSL方法主要关注语义特征探索，未能有效结合图像特征和语义特征。为了解决上述挑战，我们提出了一种新颖的基于知识图谱（KG）的ZSL模型，该模型巧妙地整合了图像和语义特征以识别灾难RS场景。首先，我们构建了一个RS-KG。

2024-07-08 10:19:53 864

原创（ECCV，2022）Mask-CLIP：从CLIP中提取自由密集标签

对比语言-图像预训练（CLIP）在开放词汇的零样本图像识别方面取得了显著突破。许多最近的研究利用预训练的CLIP模型进行图像级别分类和操作。在本文中，我们希望检查CLIP在像素级密集预测方面的内在潜力，特别是在语义分割方面。为此，我们展示了通过最小修改，MaskCLIP在没有注释和微调的情况下，在各种数据集上的开放概念中产生了引人注目的分割结果。通过添加伪标记和自训练。

2024-07-07 18:38:10 694

原创（CVPR，2024）Adversarial Prompt Tuning：只需一个提示词就足以提升预训练视觉-语言模型的对抗性鲁棒性

大型预训练视觉-语言模型（VLMs），如CLIP，尽管具有显著的泛化能力，但极易受到对抗性样本的攻击。本研究从文本提示这一新颖角度出发，而不是广泛研究的模型权重（在本研究中固定不变），来研究VLMs的对抗性鲁棒性。我们首先展示了对抗性攻击和防御的有效性都对所使用的文本提示非常敏感。受此启发，我们提出了一种通过为VLMs学习鲁棒文本提示来提高对对抗性攻击的抵抗力的方法。我们提出的方法，名为对抗性提示微调（APT），在计算和数据效率方面都非常有效。我们进行了广泛的实验。

2024-06-12 17:57:36 1190

原创（Arxiv，2023）CLIP激活的蒸馏学习：面向开放词汇的航空目标检测技术

遥感图像数量的日益增加促进了可扩展目标检测器的发展，这些检测器能够在无需昂贵地收集新的标记数据的情况下，检测超出训练类别的对象。在本文中，我们旨在开发一种开放词汇目标检测（OVD）技术，用于航空图像，该技术能够将目标词汇量扩展到超出训练数据的范围。开放词汇目标检测性能的基本挑战在于：类别不可知区域提议的质量和能够很好地泛化到新目标类别的伪标签。为了同时生成高质量的提议和伪标签，我们提出了CastDet，一个CLIP激活的师生开放词汇目标检测框架。我们的端到端框架遵循学生-教师自学习方法。

2024-06-04 21:24:59 909

原创（CVPRW，2024）可学习的提示：遥感领域小样本语义分割

小样本分割是一项任务，它要求在只有少量标注示例的情况下，对图像中新类别的对象或区域进行分割。在一般设置中，任务扩展到同时分割基础类别和新类别。主要挑战在于如何训练模型，以便新增新类别不会损害基础类别的性能，这也被称为灾难性遗忘。为了缓解这个问题，我们使用SegGPT作为我们的基线模型，并在基础类别上对其进行训练。然后，我们使用独立的可学习提示来处理每个新类别的预测。为了处理通常在遥感领域出现的多种对象大小，我们执行基于补丁的预测。为了解决补丁边界处的不连续性问题，我们提出了一种。

2024-06-03 22:26:49 1269 1

原创（ICLR，2024）HarMA：高效的协同迁移学习与模态对齐遥感技术

随着视觉和语言预训练（VLP）的兴起，越来越多的下游任务采用了先预训练后微调的范式。尽管这一范式在各种多模态下游任务中展示了潜力，但在遥感领域的实施遇到了一些障碍。具体来说，同模态嵌入倾向于聚集在一起，阻碍了高效的迁移学习。为了解决这个问题，我们从统一的角度回顾了多模态迁移学习在下游任务中的目标，并基于三个不同的目标重新考虑了优化过程。我们提出了“Harmonized Transfer Learning and Modality Alignment (HarMA)”，一种方法，它同时满足任务约束模态对齐和。

2024-06-03 21:24:33 1241

原创（ISPRS，2023）RS-CLIP: 基于对比视觉-语言监督的zero-shot遥感场景分类

零样本遥感场景分类旨在解决未见类别的场景分类问题，在遥感领域吸引了大量研究关注。现有方法大多使用浅层网络进行视觉和语义特征学习，并且在零样本学习过程中，语义编码器网络通常是固定的，因此无法捕获强大的特征表示进行分类。在这项工作中，我们介绍了一种基于对比视觉-语言监督的遥感场景分类的视觉-语言模型。我们的方法能够使用对比视觉-语言损失在嵌入空间中学习语义感知的视觉表示。通过在大规模图像-文本数据集上预训练，我们的基线方法在遥感场景上显示出良好的迁移能力。为了在零样本设置中启用模型训练，我们引入了一种。

2024-06-02 21:49:05 1135

原创遥感数据集制作（Potsdam数据集为例）：TIF图像转JPG，TIF标签转PNG，图像重叠裁剪

遥感图像不同于一般的自然图像，由于波段数量、图像位深度等原因，TIF图像数据不能使用简单的格式转换方法。本文以Potsdam数据集为例，制作能够直接用于深度学习的数据集。Potsdam数据集的内容如下：本文使用2_Ortho_RGB（图像数据RGB通道顺序）和5_Labels_all（标签数据）作为示例进行数据集制作。

2024-05-15 19:38:16 1324 2

原创（ICLR，2024）GRAFT：通过地面远程对齐无需文本注释训练遥感图像的视觉语言模型

我们介绍了一种无需使用任何文本注释即可训练遥感图像的视觉-语言模型的方法。我们的关键见解是使用地面上的互联网图像作为中介，连接遥感图像和语言。具体来说，我们训练了一个遥感图像的图像编码器，使其与CLIP的图像编码器对齐，使用大量配对的互联网和卫星图像。我们的无监督方法使得首次能够以两种不同的分辨率训练用于遥感图像的大规模视觉语言模型（VLM）。我们展示了这些VLM能够使卫星图像进行零样本、开放词汇表的图像分类、检索、分割和视觉问答。

2024-05-11 12:43:15 701

原创（Arxiv，2024）Mind the Modality Gap：通过跨模态对齐建立遥感视觉语言模型

深度学习（DL）正在经历一场范式转变，随着基础模型的出现，这些基础模型被称为关键但不完整的模型。在这项工作中，我们专注于对比语言-图像预训练（CLIP），这是一个开放词汇基础模型，可以在许多图像分类任务中取得很高的准确率，并且通常与完全监督的基线竞争性能而无需显式训练。然而，仍然存在一些域，其中零样本CLIP性能远非最佳，例如遥感（RS）和医学图像。这些领域不仅与自然图像相比具有根本不同的分布，而且通常依赖于RGB之外的互补模态来提取有意义的见解。为此，我们提出了一种方法，目的是将不同的RS图像模态与。

2024-05-06 20:33:58 1488

原创（CVPR，2024）SED：一个用于开放词汇语义分割的简单编解码器

开放词汇语义分割旨在将像素从一个开放的类别集合中划分为不同的语义组。大多数现有方法利用预训练的视觉-语言模型，其中关键是采用图像级模型进行像素级分割任务。在本文中，我们提出了一种名为SED的简单编码器-解码器，用于开放词汇语义分割，它包括基于层次编码器的代价图生成和具有类别早期拒绝的逐渐融合解码器。基于层次编码器的代价图生成采用层次骨干网络，而不是简单的Transformer，来预测像素级图像-文本代价图。与简单的Transformer相比，层次骨干网络更好地捕捉局部空间信息。

2024-04-21 20:06:34 1530

原创（CVPR，2024）CAT-Seg：基于成本聚合的开放词汇语义分割

开放词汇的语义分割面临着根据各种文本描述对图像中的每个像素进行标记的挑战。在这项工作中，我们引入了一种新颖的基于成本的方法，以适应视觉语言基础模型，特别是CLIP，用于复杂的语义分割任务。通过聚合余弦相似度分数，即图像和文本嵌入之间的成本体积，我们的方法通过微调其编码器，强大地适应了CLIP以对已见和未见类进行分割，解决了现有方法在处理未见类时面临的挑战。在此基础上，我们探讨了有效聚合成本体积的方法，考虑到它在图像和文本嵌入之间建立的多模态特性。此外，我们还研究了有效微调CLIP的各种方法。

2024-04-17 21:57:16 1644

原创（CVPR，2023）SAN：用于开放词汇语义分割的边缘适配网络

本文提出了一种新的开放词汇语义分割框架，名为边缘适配器网络（SAN）。我们的方法将语义分割任务建模为区域识别问题。一个边缘网络附加到一个冻结的CLIP模型上，具有两个分支：一个用于预测掩模提案，另一个用于预测注意偏差，该偏差应用于CLIP模型中以识别掩模的类别。这种解耦的设计使得CLIP在识别掩模提案的类别时受益良多。由于附加的边缘网络可以重用CLIP特征，因此可以非常轻量级。此外，整个网络可以进行端到端的训练，允许边缘网络适应冻结的CLIP模型，从而使得预测的掩模提案具有CLIP感知能力。

2024-04-17 21:56:41 1232

原创（ISPRS，2023）深度语义-视觉对齐用于zero-shot遥感图像场景分类

深度神经网络在遥感图像分类方面取得了令人期待的进展，其中训练过程需要大量的每个类别样本。然而，考虑到遥感目标数据库的动态增长，为每个遥感类别注释标签是耗时且不切实际的。零样本学习（ZSL）允许识别在训练过程中未见过的新类别，为上述问题提供了有希望的解决方案。然而，先前的ZSL模型主要依赖于手动标注的属性或从语言模型中提取的词嵌入来将知识从已见类别转移到新类别。这些类别嵌入可能在视觉上不可检测，而且标注过程耗时且劳动密集。

2024-04-02 21:09:12 1006

原创（CVPR，2022）ZegFormer：基于解耦的zero-shot语义分割

zero-shot语义分割（ZS3）旨在分割训练中未见的新类别。现有工作将 ZS3 表述为像素级zero-shot分类问题，并借助仅使用文本预先训练的语言模型，将语义知识从已见类别转移到未见类别。像素级的 ZS3 表述虽然简单，但却显示出整合视觉语言模型的能力有限，而这些模型通常是用图像-文本对预先训练的，目前在视觉任务中展现出巨大的潜力。受人类经常执行段级语义标注这一观察结果的启发，我们建议将 ZS3 分解为两个子任务1. 无类别分组任务，将像素归入分割区域。2. 对分段进行zero-shot分类。

2024-03-31 12:32:18 1283

原创（CVPR，2023）PADing：通用zero-shot分割的基元生成与语义对齐

在这项工作中，我们研究了通用zero-shot分割法，以在没有任何训练样本的情况下实现对新类别的全视角、实例和语义分割。这种zero-shot分割能力依赖于语义空间中的类间关系，将从已见类别中学到的视觉知识转移到未见类别中。因此，我们希望能很好地连接语义空间和视觉空间，并将语义关系应用于视觉特征学习。我们引入了一个生成模型来合成未见类别的特征，从而将语义空间和视觉空间联系起来，并解决了缺乏未见训练数据的问题。此外，为了缩小语义空间和视觉空间之间的领域差距，首先，我们用学习到的基元。

2024-03-28 22:58:47 827

原创（CVPR，2023）ZegCLIP: 使用CLIP进行单阶段零样本语义分割

最近，CLIP 通过两阶段方案被应用于像素级zero-shot学习任务。其总体思路是首先生成与类别无关的区域建议，然后将裁剪过的建议区域输入 CLIP，以利用其图像级零镜头分类能力。这种方案虽然有效，但需要两个图像编码器，一个用于生成建议，另一个用于 CLIP，从而导致复杂的流水线和高昂的计算成本。在这项工作中，我们追求一种更简单高效的单阶段解决方案，直接将 CLIP 的zero-shot预测能力从图像级扩展到像素级。我们的研究以直接扩展为基线，通过比较文本和从 CLIP 提取的补丁嵌入。

2024-03-22 22:55:21 2049 1

原创（NeurIPS，2019）【代码复现】Zero-Shot Semantic Segmentation零样本语义分割

语义分割模型在扩展到大量对象类的能力方面受到限制。在本文中，我们引入了零采样语义分割的新任务:用零训练样本学习从未见过的对象类别的逐像素分类器。为此，我们提出了一种新的架构，ZS3Net，将深度视觉分割模型与从语义词嵌入生成视觉表示的方法相结合。通过这种方式，ZS3Net解决了在测试时面对可见和未见类别的像素分类任务（所谓的“广义”零射击分类）。性能通过一个自我训练步骤进一步提高，该步骤依赖于对未见过的类的像素进行自动伪标记。

2024-03-21 11:28:57 1098 1

原创 Ubuntu安装apex0.1教程

Ubuntu安装apex0.1教程

2024-01-16 20:55:52 549

原创 Visual ChatGPT：可以处理复杂视觉任务的对话系统

构建了一个名为Visual ChatGPT的系统，结合了不同的Visual Foundation模型，使用户能够通过与ChatGPT进行交互的方式进行复杂的视觉任务处理。

2023-07-04 10:58:31 169

原创 DINOv2：Mate出品的自监督预训练图像编码器

计算机视觉中基础模型可以极大地简化图像在任何系统中的使用，因为它产生了通用的视觉特征，也就是说，无需微调就可以跨图像分布和任务工作的特征。这项工作表明，现有的预训练方法，特别是自监督方法，如果在来自不同来源的足够多的精心整理的数据上训练，可以产生这样的特征。在数据方面，我们提出了一个自动管道来构建一个专用的、多样化的、经过管理的图像数据集，而不是像自我监督文献中通常做的那样未经管理的数据。在模型方面，我们用1B个参数训练了一个ViT模型，并将其提炼成一系列较小的模型。

2023-06-14 11:52:49 833

原创【代码复现】BriVL：人大在Nature上发布的多模态图文认知基础模型

人工智能的基本目标是模仿人类的核心认知活动比如感知、推理等。虽然许多人工智能算法或模型在各个研究领域都取得了非常大的成功，但是受限于大量标注数据的获取或是没有足够的计算资源支撑在大规模数据上的训练，大多数的人工智能工作还是只局限于单个认知能力的习得。为了克服这些困难，并向通用人工智能迈出坚实的一步，作者以人类大脑处理多模态信息为灵感，开发了一个多模态（视觉语言）基础模型，也即预训练模型。

2023-06-06 18:49:34 1088 6

原创【代码复现】RingMo：应用于遥感领域的图像掩码建模技术

利用RS图像生成式自监督学习的优势，提出了一个名为RingMo的遥感大模型框架，该框架由两部分组成。首先，从卫星和航空平台收集200万张覆盖全球多个场景和目标的遥感图像，构建大规模数据集。其次，提出了一种针对复杂遥感场景中密集小目标的遥感基础模型训练方法。

2023-05-24 11:57:18 1917

原创使用SAM进行遥感图像语义分割

SAM（Segment Anything Model）的成功表明了以数据为中心的机器学习的重要性。然而，由于遥感（RS）图像注释的困难和高成本，大量有价值的RS数据仍然没有被标记，特别是在像素级。在这项研究中，我们利用SAM和现有的RS物体检测数据集，开发了一个高效的管道来生成大规模的RS分割数据集，称为SAMRS。SAMRS在规模上超过了现有的高分辨率RS分割数据集几个数量级，并提供了物体类别、位置和实例信息，可用于语义分割、实例分割和物体检测，无论是单独还是组合。

2023-05-21 11:25:38 3895 2

原创 LuoJiaAI学习笔记——3.使用LuoJiaNET进行遥感场景分类（VGGNet）

使用LuoJiaNET框架下的VGG网络进行遥感图像场景分类

2023-04-28 18:09:01 462

原创【模型解读】【代码复现】Segment Anything Model(SAM)

Meta AI的一个新的人工智能模型，只需一次点击就能 "分割出 "任何图像中的任何物体！SAM是一个可提示的分割系统，对不熟悉的物体和图像具有zero-shot的概括性，并且不需要额外的训练。

2023-04-20 11:23:38 12923 41

原创 LuoJiaAI学习笔记——2.体验LuoJiaSET

点击图片标签转换按钮可以切换展示图片和标签（可能因为网络原因笔者并未成功）数据集详情页展示了包括数据贡献者、数据集大小、相关下载链接等相关信息。LuoJiaSET可以根据用户的需求筛选数据集并下载。（必选）和其他相关筛选选项查询你想要的数据集。（样本必须拥有相关空间信息）点击三维可视化可以查看数据。Request URL使用。使用API获得数据集信息。点击图像缩略图可以查看。

2023-04-04 20:06:56 401

原创 LuoJiaAI学习笔记——1.初识LuoJiaSET和LuoJiaNET

对现有开源数据集的原有分类方案进行改造，并映射到LuoJiaSET采用的统一的、可扩展的新分类方案中。所有样本数据集的信息，包括元数据、属性表、分类方案和版权，都存储在其相应的元数据表中，以方便追溯、质量控制和所有权识别。通过开发先验地理知识提取（如图像纹理、边界和基于物理的特征提取）的特定算子，将这些先验知识集成到LuoJiaNET框架的多维混合自动并行计算的代价函数中，从而实现在有向无环图在多个硬件设备上的最优计算分配。数据库，包括来自各种卫星和航空成像系统的光学和非光学数据类型的遥感样本数据集。

2023-03-31 22:05:50 1639

原创使用Python中的selenium库进行微信公众号爬取

使用Python中的selenium库进行微信公众号文章爬取

2022-04-27 18:23:25 1919 1

原创零基础使用GitHub搭建属于自己的个人网站

1.注册GitHub账号并登陆2.创建新仓库仓库储存整个网站服务器的数据文件搭建仓库时有3个需要注意的点：1.仓库名需要使用指定的格式进行命名，命名格式为xxx.github.io（编者这里使用的是test）2.需要将仓库的可见性设置为Public，这样所有人都可以访问我们的个人网页3.添加一个README文件来声明自己网站的信息3.添加个人网站的html文件有很多种方法向仓库中添加html文件，编者这里使用最简单的直接使用网页创建新的html文件网站主页的名称必须是index

2021-05-13 12:20:45 478

lalula的博客