识别一切(Tag2Text/RAM/RAM++)之RAM论文详细阅读:Recognize Anything: A Strong Image Tagging Model

Recognize Anything: A Strong Image Tagging Model
paper:https://arxiv.org/pdf/2306.03514.pdf
code: https://github.com/xinyu1205/recognize-anything
在线demo:https://huggingface.co/spaces/xinyu1205/recognize-anything
项目: https://recognize-anything.github.io/

RAM系列的第一版:Tag2Text 论文阅读请跳转:
图像标记模型Tag2Text论文详细阅读

此篇是RAM系列的第二版:RAM

RAM系列的第三版:RAM++ 论文阅读请跳转:
识别一切SOTA版(RAM++)论文详细阅读

Abstract

我们提出了 “识别任何事物模型”(RAM):一个用于图像标记的强大基础模型。RAM 为计算机视觉领域的大型模型迈出了实质性的一步,展示了高精度识别任何常见类别的zero-shot能力。RAM 引入了图像标记的新范式,利用大规模图像文本对进行训练,而不是手动注释。

RAM 的开发包括四个关键步骤:首先,通过自动文本语义解析大规模获取无注释图像标签。随后,在原始文本和解析标签的监督下,通过统一标题和标签任务,为自动注释训练出一个初步模型。第三,利用数据引擎生成附加注释并清除错误注释。最后,使用处理过的数据对模型进行重新训练,并使用更小但质量更高的数据集对其进行微调

我们在大量基准测试中评估了 RAM 的标记能力,观察到了令人印象深刻的零镜头性能,明显优于 CLIP 和 BLIP。值得注意的是,RAM 甚至超越了完全监督方式,其性能与谷歌标记 API 相比具有竞争力。我们将在 https: //recognize-anything.github.io/ 发布 RAM,以促进计算机视觉大型模型的发展。

1.Introduction

在大规模网络数据集上训练的大型语言模型(LLM)引发了自然语言处理(NLP)领域的一场革命。这些模型表现出了令人印象深刻的zero-shot泛化能力,使它们能够泛化到训练领域之外的任务和数据分布。 在计算机视觉(CV)领域,Segment Anything Model(SAM)也通过数据扩展表现出了非凡的zero-shot定位能力。

然而,SAM 缺乏输出语义标签的能力,这是与本地化相当的另一个基本任务。多标签图像识别( Multi-label image recognition),也称为图像标签(image tagging),旨在通过识别给定图像的多个标签来提供语义标签。图像标签是一项重要而实用的计算机视觉任务,因为图像本身包含多个标签,包括对象、场景、属性和动作。遗憾的是&#

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值