lalula1999
码龄6年
关注
提问 私信
  • 博客:76,149
    76,149
    总访问量
  • 36
    原创
  • 46,827
    排名
  • 372
    粉丝
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:山东省
  • 加入CSDN时间: 2019-01-03
博客简介:

lalula的博客

查看详细资料
  • 原力等级
    领奖
    当前等级
    4
    当前总分
    562
    当月
    11
个人成就
  • 获得524次点赞
  • 内容获得61次评论
  • 获得956次收藏
  • 代码片获得5,923次分享
创作历程
  • 25篇
    2024年
  • 9篇
    2023年
  • 1篇
    2022年
  • 1篇
    2021年
成就勋章
TA的专栏
  • 知识图谱
    1篇
  • 零样本学习
    16篇
  • CLIP
    10篇
  • 代码复现
    4篇
  • 大模型
    6篇
  • PTA
  • C++
  • 报错记录
  • LuoJiaAI学习笔记
    3篇
  • GitHub
    1篇
兴趣领域 设置
  • 人工智能
    计算机视觉
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

175人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

( Neurocomputing,2023)Relphormer:用于知识图谱表示的关系图Transformer

Transformer在包括自然语言处理、计算机视觉和图挖掘在内的广泛领域中取得了显著的表现。然而,传统的Transformer架构在知识图谱(KG)表示上并未带来有希望的改进,该领域主要由平移距离范式主导。请注意,传统的Transformer架构难以捕获知识图谱固有的异构结构和语义信息。为此,我们提出了一种新的知识图谱表示Transformer变体,称为Relphormer。具体来说,我们引入了Triple2Seq,它可以动态采样上下文的子图序列作为输入,以缓解异构性问题。我们提出了一种新颖的。
原创
发布博客 2024.08.19 ·
755 阅读 ·
24 点赞 ·
0 评论 ·
24 收藏

(TMM,2022)基于知识图谱的视觉-语义纠缠网络在零样本图像识别中的应用

Graph-Based Visual-Semantic Entanglement Network for Zero-Shot Image Recognition相关资料论文:Graph-Based Visual-Semantic Entanglement Network for Zero-Shot Image Recognition摘要零样本学习(Zero-shot learning, ZSL)使用语义属性来连接未见对象的搜索空间。近年来,尽管深度卷积网络为ZSL任务带来了强大的视觉建模能力,但其视
原创
发布博客 2024.08.15 ·
1098 阅读 ·
9 点赞 ·
0 评论 ·
12 收藏

(CVPR,2023)大规模知识图谱下的零样本目标分类

零样本学习是针对预测未见类别的研究,它可以解决在训练时未预见到的类别问题以及缺乏标记数据集的问题。零样本目标分类的方法之一是使用知识图谱,这是一组显性知识。由于识别限于知识图谱中包含的类别,并且随着图谱大小的不同,类别之间的关系在数量和质量上都有望变得更加丰富,因此处理一个包含尽可能多类别的大规模知识图谱是可取的。我们使用的知识图谱包含的类别数量大约是现有研究中主要使用的知识图谱的七倍,以实现对更多类别的分类并实现更准确的识别。在使用大规模知识图谱时,预计噪声节点和边的数量会增加。
原创
发布博客 2024.08.14 ·
1130 阅读 ·
20 点赞 ·
0 评论 ·
28 收藏

(AAAI,2024)Structure-CLIP:利用场景知识图谱增强多模态结构化表征

大规模视觉-语言预训练在多模态理解和生成任务中取得了显著的性能。然而,现有方法在需要结构化表示的图像-文本匹配任务上表现不佳,即表示对象、属性和关系的能力。模型无法区分“宇航员骑马”和“马骑宇航员”。这是因为它们在学习多模态表示时未能充分利用结构化知识。在本文中,我们提出了一个端到端的框架StructureCLIP,它通过整合场景知识图谱(SGK)来增强多模态结构化表示。首先,我们使用场景图指导构建语义负样本,这增加了学习结构化表示的重视。此外,我们提出了一个知识增强编码器(KEE)
原创
发布博客 2024.07.21 ·
861 阅读 ·
9 点赞 ·
0 评论 ·
23 收藏

(ISPRS,2021)具有遥感知识图谱的鲁棒深度对齐网络用于零样本和广义零样本遥感图像场景分类

尽管深度学习已经彻底改变了遥感图像场景分类,但当前基于深度学习的方法高度依赖于预定场景类别的大量监督,并且对于超出预定场景类别的新类别表现不佳。实际上,随着涉及遥感图像场景新类别的新应用的出现,分类任务通常需要扩展,因此如何使深度学习模型具备识别训练阶段未预定场景类别之外的未见遥感图像场景的推理能力变得非常重要。本文充分利用遥感领域的特征,从头构建了一个新的遥感知识图谱(RSKG),以支持未见遥感图像场景的推理识别。为了提高面向遥感的场景类别的语义表示能力,本文提出。
原创
发布博客 2024.07.18 ·
1196 阅读 ·
19 点赞 ·
6 评论 ·
23 收藏

(NeurIPS,2022)Knowledge-CLIP:使用知识图谱进行CLIP

近年来,大规模预训练框架的发展迅速,这些框架能够以统一的形式提取多模态表征,并在转移到下游任务时展现出有希望的性能。然而,现有的方法主要关注简单的图像-文本对的预训练,而忽略了不同模态概念之间的语义联系。在本文中,我们提出了一个基于知识的知识预训练框架,称为Knowledge-CLIP,它将语义信息注入到广泛使用的CLIP模型中。通过在预训练过程中引入基于知识的目标,并使用不同类型的知识图谱作为训练数据,我们的模型能够在视觉和语言中以更高的质量对表征进行语义对齐,并增强跨场景和模态的推理能力。
原创
发布博客 2024.07.09 ·
834 阅读 ·
8 点赞 ·
0 评论 ·
23 收藏

(TGRS,2024)KG-ZSL:利用基于知识图谱的零样本学习模型识别未知灾难场景

未见类别预测是现实世界应用中的一个常见挑战,特别是在遥感(RS)图像解释领域。基于零样本学习(ZSL)的场景分类方法最近取得了显著进展,为RS领域中未见场景识别提供了一种有效的解决方案,通过语义嵌入将看到和未见类别联系起来。然而,现有的ZSL方法主要关注语义特征探索,未能有效结合图像特征和语义特征。为了解决上述挑战,我们提出了一种新颖的基于知识图谱(KG)的ZSL模型,该模型巧妙地整合了图像和语义特征以识别灾难RS场景。首先,我们构建了一个RS-KG。
原创
发布博客 2024.07.08 ·
974 阅读 ·
22 点赞 ·
0 评论 ·
22 收藏

(ECCV,2022)Mask-CLIP:从CLIP中提取自由密集标签

对比语言-图像预训练(CLIP)在开放词汇的零样本图像识别方面取得了显著突破。许多最近的研究利用预训练的CLIP模型进行图像级别分类和操作。在本文中,我们希望检查CLIP在像素级密集预测方面的内在潜力,特别是在语义分割方面。为此,我们展示了通过最小修改,MaskCLIP在没有注释和微调的情况下,在各种数据集上的开放概念中产生了引人注目的分割结果。通过添加伪标记和自训练。
原创
发布博客 2024.07.07 ·
1078 阅读 ·
13 点赞 ·
0 评论 ·
19 收藏

(CVPR,2024)Adversarial Prompt Tuning:只需一个提示词就足以提升预训练视觉-语言模型的对抗性鲁棒性

大型预训练视觉-语言模型(VLMs),如CLIP,尽管具有显著的泛化能力,但极易受到对抗性样本的攻击。本研究从文本提示这一新颖角度出发,而不是广泛研究的模型权重(在本研究中固定不变),来研究VLMs的对抗性鲁棒性。我们首先展示了对抗性攻击和防御的有效性都对所使用的文本提示非常敏感。受此启发,我们提出了一种通过为VLMs学习鲁棒文本提示来提高对对抗性攻击的抵抗力的方法。我们提出的方法,名为对抗性提示微调(APT),在计算和数据效率方面都非常有效。我们进行了广泛的实验。
原创
发布博客 2024.06.12 ·
1372 阅读 ·
31 点赞 ·
0 评论 ·
29 收藏

(Arxiv,2023)CLIP激活的蒸馏学习:面向开放词汇的航空目标检测技术

遥感图像数量的日益增加促进了可扩展目标检测器的发展,这些检测器能够在无需昂贵地收集新的标记数据的情况下,检测超出训练类别的对象。在本文中,我们旨在开发一种开放词汇目标检测(OVD)技术,用于航空图像,该技术能够将目标词汇量扩展到超出训练数据的范围。开放词汇目标检测性能的基本挑战在于:类别不可知区域提议的质量和能够很好地泛化到新目标类别的伪标签。为了同时生成高质量的提议和伪标签,我们提出了CastDet,一个CLIP激活的师生开放词汇目标检测框架。我们的端到端框架遵循学生-教师自学习方法。
原创
发布博客 2024.06.04 ·
1080 阅读 ·
17 点赞 ·
0 评论 ·
12 收藏

(CVPRW,2024)可学习的提示:遥感领域小样本语义分割

小样本分割是一项任务,它要求在只有少量标注示例的情况下,对图像中新类别的对象或区域进行分割。在一般设置中,任务扩展到同时分割基础类别和新类别。主要挑战在于如何训练模型,以便新增新类别不会损害基础类别的性能,这也被称为灾难性遗忘。为了缓解这个问题,我们使用SegGPT作为我们的基线模型,并在基础类别上对其进行训练。然后,我们使用独立的可学习提示来处理每个新类别的预测。为了处理通常在遥感领域出现的多种对象大小,我们执行基于补丁的预测。为了解决补丁边界处的不连续性问题,我们提出了一种。
原创
发布博客 2024.06.03 ·
1792 阅读 ·
26 点赞 ·
1 评论 ·
27 收藏

(ICLR,2024)HarMA:高效的协同迁移学习与模态对齐遥感技术

随着视觉和语言预训练(VLP)的兴起,越来越多的下游任务采用了先预训练后微调的范式。尽管这一范式在各种多模态下游任务中展示了潜力,但在遥感领域的实施遇到了一些障碍。具体来说,同模态嵌入倾向于聚集在一起,阻碍了高效的迁移学习。为了解决这个问题,我们从统一的角度回顾了多模态迁移学习在下游任务中的目标,并基于三个不同的目标重新考虑了优化过程。我们提出了“Harmonized Transfer Learning and Modality Alignment (HarMA)”,一种方法,它同时满足任务约束模态对齐和。
原创
发布博客 2024.06.03 ·
1610 阅读 ·
16 点赞 ·
0 评论 ·
14 收藏

(ISPRS,2023)RS-CLIP: 基于对比视觉-语言监督的zero-shot遥感场景分类

零样本遥感场景分类旨在解决未见类别的场景分类问题,在遥感领域吸引了大量研究关注。现有方法大多使用浅层网络进行视觉和语义特征学习,并且在零样本学习过程中,语义编码器网络通常是固定的,因此无法捕获强大的特征表示进行分类。在这项工作中,我们介绍了一种基于对比视觉-语言监督的遥感场景分类的视觉-语言模型。我们的方法能够使用对比视觉-语言损失在嵌入空间中学习语义感知的视觉表示。通过在大规模图像-文本数据集上预训练,我们的基线方法在遥感场景上显示出良好的迁移能力。为了在零样本设置中启用模型训练,我们引入了一种。
原创
发布博客 2024.06.02 ·
1382 阅读 ·
9 点赞 ·
0 评论 ·
31 收藏

遥感数据集制作(Potsdam数据集为例):TIF图像转JPG,TIF标签转PNG,图像重叠裁剪

遥感图像不同于一般的自然图像,由于波段数量、图像位深度等原因,TIF图像数据不能使用简单的格式转换方法。本文以Potsdam数据集为例,制作能够直接用于深度学习的数据集。Potsdam数据集的内容如下:本文使用2_Ortho_RGB(图像数据RGB通道顺序)和5_Labels_all(标签数据)作为示例进行数据集制作。
原创
发布博客 2024.05.15 ·
2226 阅读 ·
28 点赞 ·
2 评论 ·
44 收藏

(ICLR,2024)GRAFT:通过地面远程对齐无需文本注释训练遥感图像的视觉语言模型

我们介绍了一种无需使用任何文本注释即可训练遥感图像的视觉-语言模型的方法。我们的关键见解是使用地面上的互联网图像作为中介,连接遥感图像和语言。具体来说,我们训练了一个遥感图像的图像编码器,使其与CLIP的图像编码器对齐,使用大量配对的互联网和卫星图像。我们的无监督方法使得首次能够以两种不同的分辨率训练用于遥感图像的大规模视觉语言模型(VLM)。我们展示了这些VLM能够使卫星图像进行零样本、开放词汇表的图像分类、检索、分割和视觉问答。
原创
发布博客 2024.05.11 ·
861 阅读 ·
14 点赞 ·
0 评论 ·
14 收藏

(Arxiv,2024)Mind the Modality Gap:通过跨模态对齐建立遥感视觉语言模型

深度学习(DL)正在经历一场范式转变,随着基础模型的出现,这些基础模型被称为关键但不完整的模型。在这项工作中,我们专注于对比语言-图像预训练(CLIP),这是一个开放词汇基础模型,可以在许多图像分类任务中取得很高的准确率,并且通常与完全监督的基线竞争性能而无需显式训练。然而,仍然存在一些域,其中零样本CLIP性能远非最佳,例如遥感(RS)和医学图像。这些领域不仅与自然图像相比具有根本不同的分布,而且通常依赖于RGB之外的互补模态来提取有意义的见解。为此,我们提出了一种方法,目的是将不同的RS图像模态与。
原创
发布博客 2024.05.06 ·
1712 阅读 ·
24 点赞 ·
0 评论 ·
18 收藏

(CVPR,2024)SED:一个用于开放词汇语义分割的简单编解码器

开放词汇语义分割旨在将像素从一个开放的类别集合中划分为不同的语义组。大多数现有方法利用预训练的视觉-语言模型,其中关键是采用图像级模型进行像素级分割任务。在本文中,我们提出了一种名为SED的简单编码器-解码器,用于开放词汇语义分割,它包括基于层次编码器的代价图生成和具有类别早期拒绝的逐渐融合解码器。基于层次编码器的代价图生成采用层次骨干网络,而不是简单的Transformer,来预测像素级图像-文本代价图。与简单的Transformer相比,层次骨干网络更好地捕捉局部空间信息。
原创
发布博客 2024.04.21 ·
2327 阅读 ·
14 点赞 ·
0 评论 ·
33 收藏

(CVPR,2024)CAT-Seg:基于成本聚合的开放词汇语义分割

开放词汇的语义分割面临着根据各种文本描述对图像中的每个像素进行标记的挑战。在这项工作中,我们引入了一种新颖的基于成本的方法,以适应视觉语言基础模型,特别是CLIP,用于复杂的语义分割任务。通过聚合余弦相似度分数,即图像和文本嵌入之间的成本体积,我们的方法通过微调其编码器,强大地适应了CLIP以对已见和未见类进行分割,解决了现有方法在处理未见类时面临的挑战。在此基础上,我们探讨了有效聚合成本体积的方法,考虑到它在图像和文本嵌入之间建立的多模态特性。此外,我们还研究了有效微调CLIP的各种方法。
原创
发布博客 2024.04.17 ·
2300 阅读 ·
13 点赞 ·
0 评论 ·
27 收藏

(CVPR,2023)SAN:用于开放词汇语义分割的边缘适配网络

本文提出了一种新的开放词汇语义分割框架,名为边缘适配器网络(SAN)。我们的方法将语义分割任务建模为区域识别问题。一个边缘网络附加到一个冻结的CLIP模型上,具有两个分支:一个用于预测掩模提案,另一个用于预测注意偏差,该偏差应用于CLIP模型中以识别掩模的类别。这种解耦的设计使得CLIP在识别掩模提案的类别时受益良多。由于附加的边缘网络可以重用CLIP特征,因此可以非常轻量级。此外,整个网络可以进行端到端的训练,允许边缘网络适应冻结的CLIP模型,从而使得预测的掩模提案具有CLIP感知能力。
原创
发布博客 2024.04.17 ·
1732 阅读 ·
24 点赞 ·
0 评论 ·
39 收藏

(ISPRS,2023)深度语义-视觉对齐用于zero-shot遥感图像场景分类

深度神经网络在遥感图像分类方面取得了令人期待的进展,其中训练过程需要大量的每个类别样本。然而,考虑到遥感目标数据库的动态增长,为每个遥感类别注释标签是耗时且不切实际的。零样本学习(ZSL)允许识别在训练过程中未见过的新类别,为上述问题提供了有希望的解决方案。然而,先前的ZSL模型主要依赖于手动标注的属性或从语言模型中提取的词嵌入来将知识从已见类别转移到新类别。这些类别嵌入可能在视觉上不可检测,而且标注过程耗时且劳动密集。
原创
发布博客 2024.04.02 ·
1249 阅读 ·
24 点赞 ·
0 评论 ·
29 收藏
加载更多