Recognize Anything: A Strong Image Tagging Model
paper:https://arxiv.org/pdf/2306.03514.pdf
code: https://github.com/xinyu1205/recognize-anything
在线demo:https://huggingface.co/spaces/xinyu1205/recognize-anything
项目: https://recognize-anything.github.io/
RAM系列的第一版:Tag2Text 论文阅读请跳转:
图像标记模型Tag2Text论文详细阅读
此篇是RAM系列的第二版:RAM
RAM系列的第三版:RAM++ 论文阅读请跳转:
识别一切SOTA版(RAM++)论文详细阅读
Abstract
我们提出了 “识别任何事物模型”(RAM):一个用于图像标记的强大基础模型。RAM 为计算机视觉领域的大型模型迈出了实质性的一步,展示了高精度识别任何常见类别的zero-shot能力。RAM 引入了图像标记的新范式,利用大规模图像文本对进行训练,而不是手动注释。
RAM 的开发包括四个关键步骤:首先,通过自动文本语义解析大规模获取无注释图像标签。随后,在原始文本和解析标签的监督下,通过统一标题和标签任务,为自动注释训练出一个初步模型。第三,利用数据引擎生成附加注释并清除错误注释。最后,使用处理过的数据对模型进行重新训练,并使用更小但质量更高的数据集对其进行微调。
我们在大量基准测试中评估了 RAM 的标记能力,观察到了令人印象深刻的零镜头性能,明显优于 CLIP 和 BLIP。值得注意的是,RAM 甚至超越了完全监督方式,其性能与谷歌标记 API 相比具有竞争力。我们将在 https: //recognize-anything.github.io/ 发布 RAM,以促进计算机视觉大型模型的发展。
1.Introduction
在大规模网络数据集上训练的大型语言模型(LLM)引发了自然语言处理(NLP)领域的一场革命。这些模型表现出了令人印象深刻的zero-shot泛化能力,使它们能够泛化到训练领域之外的任务和数据分布。 在计算机视觉(CV)领域,Segment Anything Model(SAM)也通过数据扩展表现出了非凡的zero-shot定位能力。
然而,SAM 缺乏输出语义标签的能力,这是与本地化相当的另一个基本任务。多标签图像识别( Multi-label image recognition),也称为图像标签(image tagging),旨在通过识别给定图像的多个标签来提供语义标签。图像标签是一项重要而实用的计算机视觉任务,因为图像本身包含多个标签,包括对象、场景、属性和动作。遗憾的是&#