VLM多模态论文阅读/源码解析
文章平均质量分 96
VLM多模态论文阅读/源码解析
小小帅AIGC
这个作者很懒,什么都没留下…
展开
-
多模态之CoCa—对比+字幕生成,统一单模态、视觉语言理解和生成任务,细节理解与论文详细阅读:Contrastive Captioners are Image-Text Models
探索大规模预训练基础模型在计算机视觉领域具有重要意义,因为这些模型可以快速转移到许多下游任务中。介绍CoCa模型的主要特点:(对比式损失+字幕损失,同时实现理解+生成任务)本文介绍了对比式字幕生成器 (CoCa),这是一种简约的设计,用于联合对比式损失和字幕损失预训练图像-文本编码器-解码器基础模型,从而将对比式方法(如 CLIP)和生成式方法(如 SimVLM)的模型功能归入其中。介绍CoCa模型的具体细节:(encoder-decoder构造)原创 2024-04-19 10:48:32 · 996 阅读 · 0 评论 -
多模态之ViLT—简化视觉端嵌入,不使用区域/卷积的视觉语言模型,细节理解与论文详细阅读:Vision-Language Transformer Without Conv or Region
现有的VLP方法:视觉语言预训练(VLP)提高了各种视觉语言联合下游任务的性能。目前的 VLP 方法严重依赖于图像特征提取过程,其中大部分涉及区域监督(如物体检测)和卷积架构(如 ResNet)。现有的VLP存在的缺陷:效率/速度,因为仅仅提取输入特征就需要比多模态交互步骤多得多的计算量;表达能力,因为它的上限是视觉嵌入器及其预定义视觉词汇的表达能力。针对上述问题,提出的VILT模型:(简化了图像输入的处理)原创 2024-04-18 10:42:43 · 1044 阅读 · 0 评论 -
多模态之SLIP—将图像自监督加到CLIP中,形成自监督+语言监督的框架,细节理解与论文详细阅读:Self-supervision meets Language-Image Pre-training
指出在视觉识别任务中,自训练比监督训练效果更好:最近的研究表明,在具有挑战性的视觉识别任务中,自监督预训练比监督学习更有效。CLIP 是一种令人兴奋的语言监督学习新方法,在各种基准测试中表现出了良好的性能。提出的SLIP:将自监督与CLIP相结合:在这项工作中,我们将探讨自监督学习能否帮助将语言监督用于视觉表征学习。我们介绍了 SLIP,这是一种将自监督学习和 CLIP 预训练相结合的多任务学习框架。zero-shot迁移、线性分类和端到端微调。原创 2024-04-18 10:42:02 · 728 阅读 · 0 评论 -
多模态之ALBEF—先对齐后融合,利用动量蒸馏学习视觉语言模型表征,学习细节理解与论文详细阅读:Align before Fuse
现有的VLP存在的问题:(视觉与文本之前没有对齐就进行融合,即联合建模)在各种视觉语言任务中,大规模视觉和语言表征学习都取得了可喜的进步。现有的大多数方法都采用基于transformer的多模态编码器,对视觉token(基于区域的图像特征)和文字token进行联合建模。由于视觉token和单词token是不对齐的,因此多模态编码器学习图像与文本之间的交互具有挑战性。提出的ALBEF的优势:(在融合前,先对视觉与文本进行对齐)在本文中,我们引入了一种对比损失,即通过跨模态注意力将。原创 2024-04-16 11:24:16 · 994 阅读 · 0 评论 -
多模态之BLIP—实现统一的视觉语言理解和生成,细节理解与论文详细阅读:Bootstrapping Language-Image Pre-training
现有的VLP存在的问题:(擅长理解/生成任务,次优的监督数据源)视觉语言预训练(VLP)提高了许多视觉语言任务的性能。然而,大多数现有的预训练模型只擅长基于理解的任务或基于生成的任务。此外,性能的提高主要是通过扩大从网络上收集的噪声图像-文本对数据集来实现的,而这是一种次优的监督来源。BLIP的优势:(擅长理解和生成任务,能过滤掉噪声字幕)在本文中,我们提出了一个新的 VLP 框架 BLIP,它可以灵活地应用于视觉语言理解和生成任务。BLIP 通过。原创 2024-04-12 13:56:17 · 1669 阅读 · 0 评论 -
多模态之GLIP—低成本迁移所有领域的phrase grounding预训练SOTA模型,细节理解与论文详细阅读:Grounded Language-Image Pre-training
本文提出了一种基础语言图像预训练(GLIP)模型,用于学习对象级、语言感知和语义丰富的视觉表征。GLIP 将物体检测(object detection)和短语定位(phrase grounding)统一起来进行预训练。它允许 GLIP 从检测和定位数据中学习,从而改进这两项任务,并引导出一个良好的定位模型;GLIP 可以利用海量图像-文本对,以自我训练的方式生成定位框,从而使学习到的表征语义丰富。原创 2024-03-14 16:40:41 · 1069 阅读 · 0 评论 -
从视觉任务(识别/定位/分割/追踪..)出发,调研各种模态提示的视觉大模型CV-VLM综述论文详细阅读:Foundational Models Defining a New Era in Vision
本篇主要讲解了在视觉领域中视觉语言模型的发展历程,每种VLM基础模型提出的背景,设计方案,应用领域等,调查了关于图像识别,图像定位,图像分割,字幕生成,视频追踪等方向相关的模型。原创 2024-03-06 14:08:57 · 822 阅读 · 0 评论 -
从视觉识别任务出发,深入探索视觉语言模型(VLM)基础篇章—VLM学习综述及论文详解:Vision-Language Models for Vision Tasks: A Survey
大多数视觉识别研究在深度神经网络(DNN)训练中严重依赖人群标签数据,而且通常为每个单一的视觉识别任务训练一个 DNN,导致视觉识别范式费时费力。为了应对这两个挑战:视觉语言模型(VLMs)最近得到了深入研究,该模型能从互联网上几乎无穷无尽的网络规模图像-文本对中学习丰富的视觉-语言相关性,并通过单个 VLM 对各种视觉识别任务进行zero-shot预测。本文系统回顾了用于各种视觉识别任务的视觉语言模型,包括介绍视觉识别范式发展的背景;总结广泛采用的网络架构、预训练目标和下游任务的 VLM 基础。原创 2024-02-29 18:33:33 · 1627 阅读 · 0 评论 -
多模态表征—CLIP及中文版Chinese-CLIP:理论讲解、代码微调与论文阅读
1.讲解CLIP的主要内容;2.讲解Chinese-CLIP的主要内容;3.CLIP/Chinese-CLIP代码微调;4.CLIP/Chinese-CLIP论文重点阅读原创 2024-02-26 11:51:28 · 5504 阅读 · 24 评论 -
分割一切SAM之高精度(HQ-SAM)论文详细阅读:Segment Anything in High Quality
最近推出的 Segment Anything Model (SAM) 是扩展分割模型方面的一大飞跃,它具有强大的零镜头功能和灵活的提示功能。尽管 SAM 已使用 11 亿个Mask进行了训练,但在很多情况下,尤其是在处理具有复杂结构的物体时,其Mask预测质量仍有不足。我们提出了 HQ-SAM,使 SAM 具备准确分割任何物体的能力,同时保持 SAM 最初的可提示设计、效率和零点泛化能力。我们的精心设计重用并保留了 SAM 的预训练模型权重,同时只引入了极少的额外参数和计算。我们。原创 2024-02-18 17:35:42 · 1190 阅读 · 1 评论 -
由文本提示检测图像任意目标(Grounding DINO)论文详细阅读: Marrying DINO for Open-Set Object Detection
在本文中,我们提出了一种开放集对象检测器,称为Grounding DINO,通过将基于Transformer的检测器DINO与真值预训练相结合,该检测器可以通过人类输入(如类别名称或指代表达)对任意物体进行检测。开放集目标检测的关键解决方案是将语言引入闭集检测器,用于开集概念泛化。为了有效地融合语言和视觉模态,我们从概念上将闭合集检测器分为三个阶段,并提出了一个紧密的融合解决方案,其中包括一个特征增强器、一个以语言引导的查询选择和一个跨模态的融合。原创 2024-02-18 17:02:33 · 1884 阅读 · 1 评论 -
Grounded-SAM(最强Zero-Shot视觉应用):本地部署及各个模块的全网最详细使用教程!
本篇文章主要对Grounded-SAM项目的部署以及使用进行讲解,目的是使读者可以直接参考文档去使用Grounded-SAM,而无需再去参考Github一步步自己去分析尝试(也算是我使用过程中的心得)。原创 2024-02-18 15:59:22 · 2496 阅读 · 16 评论 -
识别一切(Tag2Text/RAM/RAM++)之RAM++论文详细阅读:Open-Set Image Tagging with Multi-Grained Text Supervision
在本文中,我们介绍了 Recognize Anything Plus Model(RAM++),这是一种有效利用多粒度文本监督的开放式图像标记模型。原创 2024-02-17 19:11:44 · 1116 阅读 · 1 评论 -
识别一切(Tag2Text/RAM/RAM++)之Tag2Text论文详细阅读:Tag2Text: Guiding Vision-Language Model Via Image Tagging
本文介绍的 Tag2Text 是一种视觉语言预训练(VLP)框架,它将图像标记引入视觉语言模型,以指导视觉语言特征的学习。与之前利用人工标注的对象标签或利用性能有限的现成检测器自动检测的对象标签不同,我们的方法明确地利用从图像配对文本中解析出的标签来学习图像标签,从而为视觉语言模型提供强有力的语义指导。这样,Tag2Text 就能根据图像-文本对利用大规模的无注释图像标签,并提供对象之外的更多样化标签类别。因此,Tag2Text 展示了基础图像标记模型的能力,其卓越的零点性能甚至可与完全监督模型相媲美。原创 2024-02-17 17:38:45 · 1157 阅读 · 1 评论 -
分割一切(SAM)论文详细阅读:Segment Anything
一个用于图像分割的新任务、模型和数据集。通过在数据收集循环中使用我们的高效模型,我们建立了迄今为止最大的分割数据集(迄今为止),其中包含 1100 万张授权图像上的 10 亿多个掩码,并且尊重隐私。该模型的设计和训练具有可提示性,因此它可以在新的图像分布和任务中进行零转移。我们在大量任务中评估了它的能力,发现它的零镜头性能令人印象深刻–通常可与之前的完全监督结果相媲美,甚至更胜一筹。原创 2024-02-17 15:03:44 · 759 阅读 · 1 评论 -
识别一切(Tag2Text/RAM/RAM++)之RAM论文详细阅读:Recognize Anything: A Strong Image Tagging Model
“识别任何事物模型”(RAM):一个用于图像标记的强大基础模型原创 2024-02-17 14:28:17 · 1310 阅读 · 3 评论 -
全自动标注集成项目(Grounded-SAM)技术报告阅读:Grounded SAM: Assembling Open-World Models for Diverse Visual Tasks
我们引入了Grounded SAM,它使用Grounding DINO [38] 作为开放集对象检测器,并与任何分割模型(SAM)[25] 相结合。这种整合可以根据任意文本输入检测和分割任何区域,并为连接各种视觉模型打开一扇大门。如图 1 所示,通过使用通用的 Grounded SAM 管道,可以实现多种视觉任务。例如,一个完全基于输入图像的自动注释管道可以通过合并诸如 BLIP [31]和Recognize Anything[83]这样的模型来实现。原创 2024-02-17 14:09:18 · 1753 阅读 · 0 评论 -
文本提示检测图像任意目标(Grounding DINO) 的使用以及全网最详细源码讲解
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection对于Grounding DINO paper地详细阅读,请移步之前的文章:由文本提示检测图像任意目标(Grounding DINO)论文阅读: Marrying DINO for Open-Set Object Detection结合Grounding DINO paper和Grounding DINO code,真正理解Grou原创 2024-02-17 13:30:53 · 2666 阅读 · 8 评论