识别一切（Tag2Text/RAM/RAM++）之RAM论文详细阅读：Recognize Anything: A Strong Image Tagging Model

小小帅AIGC

已于 2024-02-18 15:18:22 修改

阅读量3.3k

点赞数 33

分类专栏： VLM多模态论文阅读/源码解析文章标签：深度学习目标检测人工智能图像处理

于 2024-02-17 14:28:17 首次发布

本文链接：https://blog.csdn.net/weixin_44362044/article/details/136138052

版权

Recognize Anything: A Strong Image Tagging Model
paper:https://arxiv.org/pdf/2306.03514.pdf
code: https://github.com/xinyu1205/recognize-anything
在线demo:https://huggingface.co/spaces/xinyu1205/recognize-anything
项目: https://recognize-anything.github.io/

RAM系列的第一版：Tag2Text 论文阅读请跳转：
图像标记模型Tag2Text论文详细阅读

此篇是RAM系列的第二版：RAM

RAM系列的第三版：RAM++ 论文阅读请跳转：
识别一切SOTA版(RAM++)论文详细阅读

Abstract

我们提出了 “识别任何事物模型”（RAM）：一个用于图像标记的强大基础模型。RAM 为计算机视觉领域的大型模型迈出了实质性的一步，展示了高精度识别任何常见类别的zero-shot能力。RAM 引入了图像标记的新范式，利用大规模图像文本对进行训练，而不是手动注释。

RAM 的开发包括四个关键步骤：首先，通过自动文本语义解析大规模获取无注释图像标签。随后，在原始文本和解析标签的监督下，通过统一标题和标签任务，为自动注释训练出一个初步模型。第三，利用数据引擎生成附加注释并清除错误注释。最后，使用处理过的数据对模型进行重新训练，并使用更小但质量更高的数据集对其进行微调。

我们在大量基准测试中评估了 RAM 的标记能力，观察到了令人印象深刻的零镜头性能，明显优于 CLIP 和 BLIP。值得注意的是，RAM 甚至超越了完全监督方式，其性能与谷歌标记 API 相比具有竞争力。我们将在 https: //recognize-anything.github.io/ 发布 RAM，以促进计算机视觉大型模型的发展。

1.Introduction

在大规模网络数据集上训练的大型语言模型（LLM）引发了自然语言处理（NLP）领域的一场革命。这些模型表现出了令人印象深刻的zero-shot泛化能力，使它们能够泛化到训练领域之外的任务和数据分布。在计算机视觉（CV）领域，Segment Anything Model（SAM）也通过数据扩展表现出了非凡的zero-shot定位能力。

然而，SAM 缺乏输出语义标签的能力，这是与本地化相当的另一个基本任务。多标签图像识别( Multi-label image recognition)，也称为图像标签(image tagging)，旨在通过识别给定图像的多个标签来提供语义标签。图像标签是一项重要而实用的计算机视觉任务，因为图像本身包含多个标签，包括对象、场景、属性和动作。遗憾的是&#

最低0.47元/天解锁文章