多模态之GLIP—低成本迁移所有领域的phrase grounding预训练SOTA模型，细节理解与论文详细阅读：Grounded Language-Image Pre-training

最新推荐文章于 2025-03-01 12:10:25 发布

小小帅AIGC

最新推荐文章于 2025-03-01 12:10:25 发布

阅读量2.3k

点赞数 29

分类专栏： VLM多模态论文阅读/源码解析文章标签：深度学习计算机视觉目标检测 VLM 视觉语言模型目标定位人工智能

本文链接：https://blog.csdn.net/weixin_44362044/article/details/136574871

版权

VLM多模态论文阅读/源码解析专栏收录该内容

18 篇文章

订阅专栏

Grounded Language-Image Pre-training
基础语言-图像预训练

Paper: Grounded Language-Image Pre-training (arxiv.org)

Github: https://github.com/microsoft/GLIP

本篇 Grounded Language-Image Pre-training：

首先是对GLIP文章的细节精简理解
然后附上原文精读

通过细节精读和原文精读更好的理解GLIP~

1.背景

本文提出了一种基础语言图像预训练（GLIP）模型（旨在达到高效的zero-shot能力和领域迁移能力，为图像任务中的物体检测和定位提供一个强大的zero-shot模型），它将物体检测（object detection）和短语定位（phrase grounding）统一起来进行预训练，用于学习对象级、语言感知和语义丰富的视觉表征。统一的好处：

两个任务数据可以相辅相成，从而使GLIP成为一个良好的对象级VLP和短语定位模型
GLIP可以利用大量的Image-text pairs，通过slef-train的方式学习更丰富的语义，以提升短语定位性能

短语定位（phrase grounding）
指的是从图像中定位特定短语描述所指示的目标位置。这个任务旨在实现从自然语言描述到图像空间的映射。

物体检测（Object Detection）

旨在识别图像或视频中存在的物体，并确定它们的位置和类别。

2.动机

现有VLM预训练的问题：

现有的视觉模型在固定的对象类别上训练，不能直接推广到新的视觉概念和领域。
基于图像级视觉表征的预训练模型并不能适应许多细粒度视觉任务，例如CLIP可以用于zero-shot图像分类和图文检索。然而，因其没有对象级视觉表征，不能应用于如物体检测/分割、人体姿态估计、场景理解、动作识别等任务。

GLIP要解决的问题及其优势：

为了学习对象级视觉表征，GLIP发现phrase grounding（即识别句子中的短语与图像中的对象（或区域）之间的细粒度对应关系的任务）是学习对象级、语言感知和语义丰富的视觉表示的有效的预训练任务。因此，GLIP模型的优势：

1.物体检测被重构为短语定位，从而将检测和定位统一起来：

改变了检测模型的输入，将图像和描述检测任务中所有候选类别的文本提示作为模型输入
任何物体检测模型都可转换为定位模型，即将其box分类器中的对象分类对数替换为单词-区域对齐分数
在检测方面，有了定位数据，视觉概念库得到了极大的丰富；在定位方面，检测数据引入了更多边界框注释，有助于训练SoTA 短语定位模型

2.GLIP 所应用的深度跨模态融合可以提升学习高质量的语言感知视觉表征和迁移学习性能。

3.通过教师模型生成海量的图像-文本数据作为支持，从而提升学生GLIP模型的zero-shot性能和领域迁移能力。

4.通过上述的方式，GLIP拥有强大的zero-shot能力，适用多个领域。此外，当特定任务注释可用时，GLIP可以不调整整个模型，而只调整特定任务的提示嵌入，从而降低了微调成本。

在上述3中，已经有了教师模型的高性能，为什么还要学生模型，学生模型的性能能超越教师模型吗?

GLIP认为student model 的效果可能会超过 teacher model 的效果，在视觉定位的背景下，GLIP认为教师模型是在利用语言语境和语言泛化能力来准确定位，它本身可能不知道的概念，如图下图所示，如图标注数据中没有某些类别的话，teacher model 可能没法直接识别特定的概念，如 vaccine 、turquoise，但是，丰富的语言概念可以给 teacher model 提供很强的指导作用，让其能够进行猜想，所以，如果模型能够定位 small vail，则也可能能够定位 vaccine，如果模型能够定位 caribbean sea，则也可能能够定位 turquoise。因此在训练 student model 时，这种猜想能力就会变成有监督的信号，让 student 模型能够学习 vaccine 和 turquoise，从而使得student model更加健壮。

GLIP能处理什么任务？即目标是什么：

GLIP的目标是建立一个预先训练好的视觉语言模型，以zero-shot或few-shot的方式无缝转移到各种视觉任务和领域，Note: 其目的还是去解决检测定位任务（因为他的预训练任务就是这两个，并实现了 SoTA 物体检测性能）

GLIP的zero-shot检测与原生zero-shot检测的区别：

在原生zero-shot检测中，某些类别被视为未见/罕见，不存在于训练集中。
GLIP没有明确将任何类别排除在训练集之外，因为定位数据的语义非常丰富，GLIP希望它们能涵盖许多罕见类别。

开放词汇对象检测的挑战目标是—能够从开放集合中检测出任何新类目标；但GLIP 提供了一个新的视角：GLIP以检测出所有类别为前提，只需要检测出文本提示中提到的类别，因为检测分支是以提示为条件的

面对领域迁移，GLIP支持微调的能力：

现有微调方式可以分为：线性探测（linear probing）、提示调整（prompt tuning）或高效任务适配器（efficient task adapters），GLIP也支持这三种微调，并额外增加了手动提示调整:

手动提示调整：对于任何新类别，用户可以在文本提示中使用表达性描述，添加属性或语言上下文，以注入领域知识并帮助 GLIP 迁移，例如下图中，模型未能定位新实体 "stingray"的所有出现。然而，通过在提示中添加属性，即 “flat and round”，模型成功地定位了所有出现的stingray。
提示调整：在 GLIP 中，每个检测任务只有一个 prompt，因此首先从 language backbone中获得提示嵌入 $P^0$ ，然后舍弃 language backbone，只 fine-tuning 作为 task-specific 输入。Note: 在物体检测中，prompt tuning对 GLIP 等深度视觉语言融合模型最为有效，而对浅度融合模型的效果则差得多
线性探测：GLIP可以只微调box和区域与提示嵌入之间的投影层。

3.Model

GLIP模型架构主要有三部分组成：

将物体检测object detection任务重构为定位 phrase grounding问题；
在图像和文本之间添加深度融合，使检测模型具有语言感知能力；
通过重构和深度融合，GLIP在可扩展且语义丰富的定位数据上进行预训练

3.1.任务重构

对于原生的物体检测任务：

传统的检测模型将输入图像送入视觉编码器 $Enc_{I}$ ，以 CNN/Transformer为backbone，提取区域/方框特征 O，每个区域/方框特征都被输入两个预测头，即方框分类器 C 和方框回归器 R，它们分别用分类损失 $L_{cls}$ 和定位损失 $L_{loc}$ 进行训练。

在两阶段检测器中，一个单独RPN用来区分前景和背景，由于RPN损失不包含对象类别的语义信息，因此GLIP将其合并到定位损失 $L_{loc}$ 中；
在单级检测器中，定位损失 $L_{loc}$ 也可能包含中心性损失。

box分类器 C 通常是一个简单的线性层，分类损失 $L_{cls}$ 写成：
在这里插入图片描述

$O\in R^{N×d}$ 是输入图像的对象/区域/box特征
$W\in R^{c×d}$ 是box分类器 C 的权重矩阵
$S_{cls}\in R^{N×c}$ 是输出分类对数
$T\in \{0, 1\} ^{N×c}$ 是区域和类别之间的目标匹配
$l oss (S; T)$ 通常是两阶段检测器的cross-entropy损失/单阶段检测器的focal损失

物体检测重构为phrase grounding的方法：

将目标检测视为短语定位，不再将每个区域/方框分为 c 类，而是将每个区域与文本提示中的 c 个短语定位/对齐。

对于如何设置文本提示：一种简单的方法是：Prompt = “Detect: person, bicycle, car, … , toothbrush”, 其中每个类别的名称都是一个候选短语，这些候选短语都是需要被定位的

对于检测模型中分类损失转换：GLIP计算图像区域与提示词之间的对齐分数 $S_{ground}$ ：

在这里插入图片描述

$P\in R^{M×d}$ 是来自语言编码器的上下文token特征
$Enc_I$ ：图像编码器
$Enc_L$ ：语言编码器

对于GLIP的训练损失： $Enc_I$ 和 $Enc_L$ 组成的定位模型是通过最小化 (1) 和 (2) 中定义的损失进行端到端训练的，只需将 (2) 中的分类对数 $S_{cls}$ 替换为 (3) 中的区域-单词配对分数 $S_{ground}$ 。

（2）中 $T\in \{0, 1\} ^{N×c}$ 区域与类别匹配映射的转换：在 (2) 中，由于以下四个原因，sub word token的数量M总是大于文本提示中短语的数量c：

一些 phrases 包含多个 words（如 traffic light）
一些 single-word phrase 被分为多个 sub-word token（如 toothbrush 被分为 tooth 和 bruth）
一些 token 是被添加进去的（如Detect: 和 ‘,’）
在标记化序列的末尾添加了一个[NoObj]标记

所以，当loss为binary sigmoid loss时，将原始目标矩阵 $T\in\{0, 1\} ^{N×c}$ 扩展为 $T'\in\{0, 1\} ^{N×M}$ ，方法是：

如果一个短语为positive match，则所有子词均为positive match；
一些被加进去当做标识字符的 word 对所有特征都是 negative match

在这种变化下， $loss(S_{ground}; T')$ 保持不变。在推理过程中，我们将token概率平均为短语概率。

由于语言编码器的自由形式输入，经过重构后，预训练的短语定位模型可以直接应用于任何对象检测任务。这就使得我们的 GLIP 模型可以以 zero-shot 的方式转移到任意检测任务中。GLIP定位重构受到了 MDETR的启发，与 MDETR 相比，GLIP找到了将检测重新重构为定位的有效方法，以及检测和定位任务的简单统一损失。此外，GLIP 与zero-shot检测的不同之处在于，GLIP 提供了检测和定位的统一视图，并实现了两个关键要素，即语言感知的深度融合和图像文本数据的扩展。

3.2.Language-Aware Deep Fusion-深度融合模块

late-fusion models:

late-fusion models：在 (3) 中，图像和文本分别由不同的编码器编码，最后才融合在一起计算对齐分数，称这种模型为后期融合模型late-fusion models。

GLIP中的deep-fusion encoder:

deep-fusion models: 在vision-language方法中，视觉和语言特征的深度融合是学习高效短语定位模型的必要条件。因此，GLIP在图像编码器和语言编码器之间引入深度融合，在最后几层编码层中融合图像和文本信息，具体来说：

GLIP使用DyHead作为图像编码器，使用BERT作为文本编码器，deep-fusion编码器为：

在这里插入图片描述

$L$ 是 DyHead 中 DyHeadModule 的数量

BERTLayer是在预训练BERT 的顶部新添加的 BERTLayer

$O^0$ 表示来自DyHead的视觉特征

$P^0$ 表示来自BERT的标记特征

X-MHAL：cross-modality multi-head attention model跨模态多头注意力模块，用于进行多模态交互， $O^i_{t2i}$ 是 token2image 交互结果， $P^i_{i2t}$ 是 image2token 交互结果，如果没有 X-MHA 的话，则退化为 late-fusion model。

在XMHA（4）中，每个头通过注意另一种模态来计算一种模态的上下文向量：
在这里插入图片描述

其中， ${W(symbol,I) , W(symbol,L) : symbol ∈ \{q, v, out\}\}$ 为可训练参数，分别与多头自注意中的查询层、值层和输出线性层的作用类似。

deep-fusion encoder的优势：

提高了短语定位性能。
它使学习到的视觉特征具有语言感知能力，从而使模型的预测以文本提示为条件。

整个模型的构造简单，总结如下：

输入： image和text prompt

first：image经过DyHead生成vision embedding，prompt经过Bert生成token embedding

second: 将vision,token embedding经过X-MHA生成多模态融合的image2text的 $P^i_{i2t}$ embedding和text2image的 $O^i_{t2i}$ embedding

third：将 $P^i_{i2t}$ 和原始vision embedding送入到DyHeadModule中生成融合了text的image特征，将 $O^i_{t2i}$ 和原始token embedding送入到 BERTLayer中生成融合了image的token特征

finally：将最后的特征计算定位损失 $L_{loc}$ 和对齐损失 $S_{ground}$

3.3.使用语义丰富的数据-预训练

GLIP可以跳脱概念池的定义，在丰富的数据上进行预训练:

人工注释成本高昂且数量有限，先前的工作试图使用教师从原始图像中预测方框，并生成伪检测标签来训练学生模型。但是教师只能预测在现有数据集上构建的概念池中定义的标签。然而，GLIP模型可以同时在检测数据和定位数据上进行训练，grounding data 可以提供丰富的语义信息来促进定位，从而跳出现有的概念池概念：

grounding data涵盖的视觉概念词汇量要大得多
即使在不扩充 detection data 的情况下，扩充 grounding data 的方式来提高语义丰富性，GLIP采用自训练方法。先用真实检测和定位数据预训练一个教师 GLIP。然后，我们使用教师模型来预测网络收集的图像-文本数据中的方框，其中的名词短语由 NLP 解析器检测到。最后，使用真实数据和生成的伪定位数据训练学生模型。

4.原文阅读

Abstract

本文提出了一种基础语言图像预训练（GLIP）模型，用于学习对象级、语言感知和语义丰富的视觉表征。GLIP 将物体检测（object detection）和短语定位（phrase grounding）统一起来进行预训练。这种统一带来了两个好处：

它允许 GLIP 从检测和定位数据中学习，从而改进这两项任务，并引导出一个良好的定位模型；
GLIP 可以利用海量图像-文本对，以自我训练的方式生成定位框，从而使学习到的表征语义丰富。

在实验中，我们在 2700 万个定位数据上对 GLIP 进行了预训练，其中包括 300 万个人工标注的图像文本对和 2400 万个网络抓取的图像-文本对。学习到的表征在各种对象级识别任务中都表现出了很强的zero-shot和few-shot迁移能力。

物体检测（Object Detection）旨在识别图像或视频中存在的物体，并确定它们的位置和类别。该任务通常包括以下几个步骤：

目标定位（Localization）：确定图像中物体的位置。这通常是通过边界框（Bounding Box）来完成，即用矩形框标记出物体在图像中的位置。
目标分类（Classification）：对定位的物体进行分类，即确定物体所属的类别。每个边界框通常与一个物体类别相关联。
语义分割（Semantic Segmentation）：在一些高级的物体检测任务中，除了定位和分类外，还会对物体进行像素级别的分割，即将图像中的每个像素分配给相应的类别，从而实现更精细的物体检测和识别。

短语定位（phrase grounding）
指的是从图像中定位特定短语描述所指示的目标位置。这个任务旨在实现从自然语言描述到图像空间的映射。具体来说，短语定位任务通常包括以下步骤：

语义理解（Semantic Understanding）：理解自然语言描述中的语义信息，以确定要在图像中定位的目标。
图像搜索（Image Retrieval）：使用语义信息在图像patches中检索与描述相匹配的图像候选patch。
目标定位（Object Localization）：在候选图像中定位目标对象的位置，通常使用边界框或者图像分割来表示目标的位置。

1. Introduction

指出现有的VLM预训练的问题：基于图像级视觉表征的预训练模型并不能适应许多细粒度视觉任务

视觉识别模型通常是为预测一组固定的预设对象类别而训练的，这就限制了它们在实际应用中的可用性，因为需要额外的标注数据才能推广到新的视觉概念和领域。CLIP表明，图像级视觉表征可以在大量原始图像-文本对上有效学习。由于配对文本包含的视觉概念比任何预先定义的概念库都要多，因此预训练的 CLIP 模型语义非常丰富，可以轻松地将其应用于下游图像分类和zero-shot设置下的文本图像检索任务。然而，许多任务（如物体检测、分割、人体姿态估计、场景理解、动作识别、视觉语言理解）都需要对图像进行细粒度的理解，因此非常需要物体级的视觉表征。

指出本文所要解决的问题：通过物体检测和段位定位任务作为预训练可以学习对象级视觉表征，从而应用各种细粒度视觉任务

在本文中，我们证明了短语定位（即识别句子中的短语与图像中的对象（或区域）之间的细粒度对应关系的任务）是学习对象级、语言感知和语义丰富的视觉表示的有效且可扩展的预训练任务，并提出了定位语言-图像预训练（GLIP）。我们的方法将短语定位和对象检测任务统一起来，对象检测可以看作是无上下文的短语定位，而短语定位可以看作是上下文化的对象检测任务。我们的主要贡献如下。

指出GLIP的第一个贡献：将检测和定位任务统一：

将物体检测重新表述为短语定位，从而将检测和定位统一起来。

这种重新表述改变了检测模型的输入：它不仅将图像作为输入，还将描述检测任务中所有候选类别的文本提示作为输入。例如，COCO 物体检测的文本提示是一个由 80 个短语（即 80 个 COCO 物体类别名称）组成的文本字符串，以"."如图 2（左）所示，任何对象检测模型都可以转换为定位模型，方法是将其方框分类器中的对象分类对数替换为单词-区域对齐分数，即区域（或方框）视觉特征与标记（或短语）语言特征的点积。

指出GLIP相比CLIP，多模态融合的优势，以及从两个任务出发作为预训练的优势：

语言特征是通过语言模型计算得出的，因此新的检测（或定位）模型具有双编码器结构。与只在最后一个点乘层融合视觉和语言的 CLIP 不同，我们的研究表明，GLIP 所应用的深度跨模态融合（如图 2（中）所示）对于学习高质量的语言感知视觉表征和实现卓越的迁移学习性能至关重要。检测和定位的统一也使我们能够使用两种类型的数据进行预训练，并使这两项任务都受益匪浅。在检测方面，由于有了定位数据，视觉概念库得到了极大的丰富。在定位方面，检测数据引入了更多边界框注释，有助于训练新的 SoTA 短语定位模型。
在这里插入图片描述

指出GLIP的第二个贡献：通过教师模型生成海量的图像-文本数据作为支持：

利用海量图像-文本数据扩展视觉概念。

有了好的基础模型（教师），我们就可以通过自动生成海量图像-文本配对数据的基础框来增强 GLIP 预训练数据，其中的名词短语是由 NLP 解析器检测到的。因此，我们可以在 2700 万个定位数据（包括 300 万个人类短语定位任务）上对我们的（学生）GLIP-Large 模型（GLIP-L）进行预训练，与典型的短语定位任务不同，对象检测任务的文本提示中的短语可能不会出现在图像中。在 2400 万个图像文本对中，有 7810 万个高置信度（> 0.5）短语框伪注释，其中有 5840 万个独特的名词短语。我们在图 3 中展示了两个生成短语框的真实示例。教师模型可以准确定位一些可以说很难定位的概念，如注射器、疫苗、美丽的加勒比海绿松石，甚至是抽象词（风景）。在这些语义丰富的数据上进行训练，就能得到语义丰富的学生模型。与此相反，之前关于缩放检测数据的研究根本无法预测教师模型预定义词汇之外的概念。在本研究中，我们证明了这种扩大基础数据的简单策略在经验上是有效的，为 LVIS 和 13 项下游检测任务带来了巨大的改进，尤其是在罕见类别上（第 4.2 节和第 5 节）。当预训练的 GLIP-L 模型在 COCO 上进行微调时，它在 COCO 2017val 上实现了 60.8 的 AP 值，在 test-dev 上实现了 61.5 的 AP 值，超过了目前公开的 SoTA 模型，这些模型以各种方法扩展了对象检测数据。
在这里插入图片描述

指出GLIP的第三个贡献：强大的zero-shot能力，适用多个领域：

利用 GLIP 进行迁移学习：一种模式适用于所有领域。

基础重构和语义丰富的预训练促进了领域迁移。在 COCO 和 LVIS 数据集上直接对 GLIP-L 模型进行评估时（预训练时未看到 COCO 中的任何图像），它在 COCO val2017 和 LVIS val 上分别获得了 49.8 和 26.9 的 AP，超过了许多有监督的基线模型。在 13 个现有的物体检测数据集上进行评估时，GLIP 展示了出色的数据效率。例如，zero-shot GLIP-L 优于在 Objects365 上预先训练的 10-shot监督基线（Dynamic Head），而 1-shot GLIP-L 则可与完全监督的 Dynamic Head 相媲美。此外，当特定任务注释可用时，我们可以不调整整个模型，而只调整特定任务的提示嵌入，同时保持模型参数不变。在这种提示调整设置下（第 5.2 节），一个 GLIP 模型可以同时在所有下游任务中表现出色，从而降低了微调和部署成本。

在这里插入图片描述

2. Related Work

指定原生检测数据集稀缺且标注困难，但是GLIP使用短语定位可以生成海量图-文数据

标准的物体检测系统经过训练，可定位人群标签数据集（如 COCO、OpenImages (OI)、Objects365和 Visual Genome (VG)）中预定义的一组固定物体类别，这些数据集包含的物体类别不超过 2000 个。此类人类标注数据的扩展成本很高。GLIP 提出了一种经济实惠的解决方案，它将物体检测重新表述为短语定位（词到区域匹配）问题，从而可以使用定位和海量图像文本配对数据。虽然我们目前的实现是建立在动态头部（DyHead）的基础上，但我们的统一表述可以推广到任何物体检测系统。

总结基于文本提示的语言模型之前的工作

最近，针对视觉识别问题开发视觉和语言方法成为一种趋势，即用自由形式语言监督来训练视觉模型。例如，CLIP 和 ALIGN对数以亿计或数千万计的图像-文本对进行跨模态对比学习，并可直接进行开放词汇图像分类。通过将来自 CLIP/ALIGN 模型的知识提炼为两阶段检测器，ViLD被提出来推进zero-shot物体检测。另外，MDETR在现有的多模态数据集上训练端到端模型，这些数据集在文本中的短语和图像中的物体之间有明确的对齐。我们的 GLIP 继承了这一研究方向的语义丰富和语言感知特性，实现了 SoTA 物体检测性能，并显著提高了下游检测任务的可移植性。

指出GLIP的目标是zero-shot检测和领域迁移

本文的重点是物体检测的领域转移。我们的目标是建立一个预先训练好的模型，以零镜头或少镜头的方式无缝转移到各种任务和领域。我们的设置不同于零镜头检测，在零镜头检测中，某些类别被视为未见/罕见，不存在于训练集中。我们希望 GLIP 能在罕见类别上表现出色，但我们并没有明确将任何类别排除在训练集之外，因为基础数据的语义非常丰富，我们希望它们能涵盖许多罕见类别。这与开放词汇对象检测中的设置相似，后者希望原始图像-文本数据涵盖许多罕见类别。有一种研究将建立一个开放世界的对象建议模块作为主要挑战，该模块可以在测试时提出任何新颖的对象；GLIP 提供了一个新的视角：该模型不需要从一个开放集合中提出所有可能的新颖对象；相反，它只需要提出文本提示中提到的对象，因为检测分支是以提示为条件的。

指出GLIP支持微调，从而适用各种私域领域，并说明提示调整对深度融合的VLM有效

除了罕见类别的性能外，我们还考虑了实际场景中的转移成本，即如何以最少的数据量、训练预算和部署成本实现最佳性能。我们特别指出，GLIP 支持及时调整，这与完全微调的性能不相上下，但只调整了部分模型参数。我们还提出了一个新发现，即在物体检测中，提示调整（prompt tuning）对 GLIP 等深度视觉语言融合模型最为有效，而对浅度融合模型的效果则差得多。这与近期仅针对浅层视觉语言融合模型（如 CLIP）进行及时调整的研究成果形成了鲜明对比。

3. Grounded Language Image Pre-training

从概念上讲，物体检测和短语定位具有很大的相似性。它们都试图定位对象并将其与语义概念对齐。这种协同作用促使我们将经典的物体检测任务转化为定位问题，并提出了统一的表述方法（第 3.1 节）。我们还建议在图像和文本之间添加深度融合，使检测模型具有语言感知能力，从而成为一个强大的接地模型（第 3.2 节）。通过重新表述和深度融合，我们可以在可扩展且语义丰富的接地数据上对 GLIP 进行预训练（第 3.3 节）。

3.1. Unified Formulation（统一重构）

介绍原生物体检测的定义：

背景：物体检测

典型的检测模型将输入图像送入视觉编码器 $Enc_I$ ，以 CNN或 Transformer为骨干，提取区域/方框特征 O，如图 2（下图）所示。每个区域/方框特征都被输入两个预测头，即方框分类器 C 和方框回归器 R，它们分别用分类损失 $L_{cls}$ 和定位损失 $L_{loc}$ 进行训练：
在这里插入图片描述

在两阶段检测器中，一个单独的区域建议网络（RPN）和 RPN 损失 $L_{rpn}$ 被用来区分前景和背景，并完善锚点。由于 $L_{rpn}$ 不使用对象类别的语义信息，因此我们将其合并到定位损失 $L_{loc}$ 中。在单级检测器中，定位损失 $L_{loc}$ 也可能包含中心性损失。

box分类器 C 通常是一个简单的线性层，分类损失 $L_{cls}$ 可写成
在这里插入图片描述

这里， $O\in R^{N×d}$ 是输入图像的对象/区域/盒状特征， $W\in R^{c×d}$ 是box分类器 C 的权重矩阵， $S_{cls}\in R^{N×c}$ 是输出分类对数， $T\in \{0, 1\} ^{N×c}$ 是根据经典的多对一匹配或匈牙利双匹配计算的区域和类别之间的目标匹配。 $l oss (S; T)$ 通常是两阶段检测器的 cross-entropy损失和单阶段检测器的focal损失。

介绍短语定位的定义：

将目标检测视为短语定位。我们不再将每个区域/方框分为 c 类，而是将检测重新表述为一个定位任务，将每个区域与文本提示中的 c 个短语定位/对齐（见图 2）。如何为检测任务设计文本提示？给定对象类别 [人、自行车、汽车…、牙刷]，一种简单的方法是

Prompt = “Detect: person, bicycle, car, … , toothbrush”,

其中每个类别的名称都是一个候选短语。我们可以通过对这些类别进行更具表现力的描述和/或利用预训练语言模型的偏好来设计更好的提示。例如，当使用预训练的 BERT 模型来初始化我们的语言编码器 $Enc_L$ 时，提示语 "人、自行车、汽车…牙刷 "就比上述更适合人类的提示语效果更好。我们将在第 5.2 节讨论提示语的设计。

在定位模型中，我们计算图像区域与提示词之间的对齐分数 $S_{ground}$ ：
在这里插入图片描述
其中， $P\in R^{M×d}$ 是来自语言编码器的上下文单词/token特征，其作用类似于 (2) 中的权重矩阵 W，如图 2（右）所示。由图像编码器 $Enc_I$ 和语言编码器 $Enc_L$ 组成的定位模型是通过最小化 (1) 和 (2) 中定义的损失进行端到端训练的，只需将 (2) 中的分类对数 $S_{cls}$ 替换为 (3) 中的区域-单词配对分数 $S_{ground}$ 。

然而，在 (2) 中，我们现在有对数 $S_{ground}\in R^{N×M}$ 和目标 $T\in \{0, 1\} ^{N×c}$ 。由于以下四个原因，（子）词标记 M 的数量总是大于文本提示中短语 c 的数量：

有些短语包含多个单词，如 “红绿灯”；
有些单词短语被拆分成多个（子）词标记，如 "牙刷 "被拆分成 "tooth#"和 “#brush”；
有些是添加的标记，如 “Detect:”、“,”、语言模型中的特殊标记；
在标记化序列的末尾添加了一个[NoObj]标记。

当损失为（焦点）二元 sigmoid 损失（在第 4 和第 5 节中使用的损失）时，我们将原始目标矩阵 $T\in \{0, 1\} ^{N×c}$ 扩展为 $T'\in \{0, 1\} ^{N×M}$ ，方法是：如果一个短语为正匹配，则所有子词均为正匹配；如果所有图像特征为负匹配，则所有添加的词组均为负匹配。在这种变化下， $loss(S_{ground}; T')$ 保持不变。在推理过程中，我们将标记概率平均为短语概率。

介绍GLIP检测和定位之间的关联—将检测模型转换为定位模型，且GLIP定位模型可以应用对象检测：

检测与定位之间的等价性。通过上述重构，我们可以将任何检测模型转换为定位模型，而这两种观点，即检测和定位，在理论上对于训练和推理都是等价的。我们还通过实证验证了这一点：采用 Swin-Tiny 主干网的 SoTA DyHead 检测器在 COCO val2017 上的性能在我们重新计算前后是一样的。由于语言编码器的自由形式输入，经过重构后，预训练的短语定位模型可以直接应用于任何对象检测任务。这就使得我们的 GLIP 模型可以以 "zero-shot "的方式转移到任意检测任务中。

相关工作。我们的定位重构受到了 MDETR的启发，我们的定位损失与 MDETR 的细粒度对比损失具有相同的精神。与 MDETR 相比，我们更进一步，找到了将检测重新重构为定位的有效方法，以及检测和定位任务的简单统一损失。我们的定位模型也类似于零镜头检测模型。Bansal 等人的开创性工作通过使用预训练的 Glove 词嵌入作为短语特征 $P\in R^{c×d}$ ，如果写成（3）的形式，检测模型就能进行零镜头检测。最近，在开放词汇检测中引入了从预先训练的深度语言模型中提取的短语特征。GLIP 与零镜头检测的不同之处在于，GLIP 提供了检测和定位的统一视图，并实现了两个关键要素，即语言感知的深度融合和图像文本数据的扩展，下文将对此进行介绍。

3.2. Language-Aware Deep Fusion

在 (3) 中，图像和文本分别由不同的编码器编码，最后才融合在一起计算对齐分数。我们称这种模型为后期融合模型。在视觉语言文献中，视觉和语言特征的深度融合是学习高效短语定位模型的必要条件。我们在图像编码器和语言编码器之间引入深度融合，在最后几层编码层中融合图像和文本信息，如图 2（中）所示。具体来说，当我们使用 DyHead 作为图像编码器，使用BERT作为文本编码器时，深度融合的编码器就是：
在这里插入图片描述

其中， $L$ 是 DyHead 中 DyHeadModule 的数量；BERTLayer是在预训练 BERT 的基础上新添加的 BERT 层； $O^0$ 表示来自视觉骨干网的视觉特征； $P^0$ 表示来自语言骨干网（BERT）的标记特征。跨模态通信由跨模态多头注意力模块（X-MHA）（4）实现，然后在（5）和（6）中进行单模态融合和更新。如果不添加上下文向量（视觉模态为 $O^i_{t2i}$ ，语言模态为 $P^i_{i2t}$ ），该模型将简化为后期融合模型。

在跨模态多头注意力模块（XMHA）（4）中，每个头通过注意另一种模态来计算一种模态的上下文向量：
在这里插入图片描述

其中， ${W(symbol,I) , W(symbol,L) : symbol ∈ \{q, v, out\}\}$ 为可训练参数，分别与多头自注意中的查询层、值层和输出线性层的作用类似。

深度融合编码器 (4)-(6) 有两个好处：

提高了短语定位性能。
它使学习到的视觉特征具有语言感知能力，从而使模型的预测以文本提示为条件。这对于实现用一个模型完成所有下游检测任务的目标至关重要。

3.3. Pre-training with Scalable Semantic-Rich Data（利用可扩展的语义丰富数据进行预训练）

相比之前的自训练方法，GLIP可以跳脱概念池的定义，在丰富的数据上进行预训练：

为了收集语义丰富、数量庞大的检测数据，人们付出了巨大的努力。然而，事实证明，人工注释成本高昂且数量有限。先前的工作试图以自训练的方式进行扩展。他们使用教师（预先训练好的检测器）从原始图像中预测方框，并生成伪检测标签来训练学生模型。但是，生成的数据在概念池的大小方面仍然受到限制，因为教师只能预测在现有数据集上构建的概念池中定义的标签。相比之下，GLIP模型既可以在检测数据上进行训练，更重要的是，也可以在定位数据上进行训练。我们的研究表明，定位数据可以提供丰富的语义来促进本地化，并且可以以自我训练的方式进行扩展。

说明GLIP短语定位数据的优势，第一个优势：短语定位数据扩大了词汇量，从而拓展丰富类别：

首先，与现有的检测数据相比，真实定位数据所涵盖的视觉概念词汇量要大得多。迄今为止最大规模的检测词汇扩展尝试仍然只涵盖不超过2,000个类别。有了定位数据，我们就能扩大词汇量，几乎涵盖定位标题中出现的所有概念。例如，Flickr30K包含 44,518 个独特的短语，而 VG Caption包含 110,689 个独特的短语，比检测数据的词汇量大了好几个数量级。在第 4.4 节中提供了一项实证研究，表明 0.8 百万真实定位数据比额外的 2 百万检测数据在检测稀有类别方面带来了更大的改进。

第二个优势：GLIP自训练的方式扩大数据规模：

此外，我们还展示了一条获得语义丰富数据的可行途径：扩大定位数据的规模，而不是扩大检测数据的规模。我们采用了一种受自训练启发的简单方法。我们首先用真实（人类标注的）检测和定位数据预训练一个教师 GLIP。然后，我们使用这个教师模型来预测网络收集的图像-文本数据中的方框，其中的名词短语由 NLP 解析器检测到。最后，使用真实数据和生成的伪定位数据训练学生模型。如图 3 所示，教师模型能够为语义丰富的实体生成准确的方框。

介绍学生模型为什么优于教师模型，即GLIP为什么采用自训练的方式训练学生:

为什么学生模型可能优于教师模型？虽然自训练文献中的讨论仍很活跃，但在视觉定位的背景下，我们认为教师模型是在利用语言语境和语言泛化能力来准确定位，它本身可能不知道的概念。例如，在图 3 中，如果真实数据中不存在疫苗和绿松石等概念，教师可能无法直接识别这些概念。但是，丰富的语言上下文（如句法结构）可以为教师模型提供强有力的指导，使其进行 “有根据的猜测”:

如果模型能定位到a small vail，它就能定位到vaccine；如果模型能找到caribbean sea，它就能定位到turquoise。当我们训练学生模型时，教师模型的 "有根据的猜测 "就会变成 "有监督的信号"，从而使学生模型学会疫苗和绿松石的概念。

4. Transfer to Established Benchmarks(迁移去构建基准)

经过预训练后，GLIP 可以轻松应用于定位和检测任务。在三个已建立的基准测试中展示了强大的领域转移性能：1）MS-COCO 对象检测（COCO），包含 80 个常见对象类别；2）LVIS，涵盖 1000 多个对象类别；3）Flickr30K，用于短语定位。我们训练了 GLIP 的 5 种变体（表 1），以消减其三种核心技术：

统一定位损失；
语言感知深度融合；
使用两种类型的数据进行预训练。

GLIP-T (A) 基于 SoTA 检测模型 Dynamic Head，用我们的词区对齐损失代替分类损失。它以 Swin-Tiny 为骨干，并在 O365上进行了预训练，O365 包含 0.66 亿张图像和 365 个类别。如第 3.1 节所述，该模型可被视为一个强大的经典zero-shot检测模型，纯粹依靠语言编码器来泛化新概念。

**GLIP-T（B）**通过语言感知深度融合进行了增强，但只在 O365 上进行了预训练。

GLIP-T © 是在 O365 和GoldG（由 MDETR，包括 Flickr30K、VG Caption和 GQA，策划的 0.8 百万人类标注的定位数据）上预先训练的。我们从数据集中删除了 COCO 图像。其目的是验证定位数据的有效性

GLIP-T 基于 Swin-Tiny 主干网，并对以下数据进行了预训练：1）O365；2）GoldG，与 GLIP-T ©相同；3）Cap4M，从网络上收集的 400 万对图像-文本，带有由 GLIP-T © 生成的方框。我们还对现有的图像标题数据集进行了实验：CC（3M 数据的概念标题）和 SBU（1M 数据）。我们发现，CC+SBU GLIP-T 在 COCO 上的表现略好于 Cap4M GLIP-T，但在其他数据集上则略差。为简单起见，我们同时报告了 COCO 的两个版本，但只报告了其他任务的 Cap4M 模型。我们在附录中列出了全部结果。

GLIP-L 以 Swin-Large 为基础，使用以下数据进行训练：1) FourODs（266 万数据），4 个检测数据集，包括 Objects365、OpenImages、Visual Genome（不包括 COCO 图像）和 ImageNetBoxes；2) GoldG，与 GLIP-T ©相同；3) CC12M+SBU，从网络收集的 2400 万图像-文本数据，带有生成的方框。

4.1. Zero-Shot and Supervised Transfer on COCO（zero-shot和COCO上的有监督迁移）

我们在 MS-COCO 上进行了实验，以评估模型向常见类别转移的能力。我们在两种设置下进行评估：

zero-shot领域转移；
监督转移，

我们使用标准设置对预训练模型进行微调。在微调设置中，我们还测试了 GLIP-L 模型的性能，其中我们在预训练数据中加入了 COCO 图像（最后一行）。具体来说，我们将完整的 GoldG+ grounding 数据和 COCO train2017 添加到预训练数据中。请注意，部分COCO 2017val 图像存在于 GoldG+ 中。因此，只报告了该模型的测试-开发性能。

我们引入了一个额外的基线：DyHead 在 Objects365 上进行了预训练。我们发现，Objects365 完全覆盖了 COCO 80 个类别。因此，我们可以以 "0-shot "的方式评估在 Objects365 上训练的 DyHead：在推理过程中，我们不从 365 个类别中进行预测，而是限制模型仅从 COCO 80 个类别中进行预测。我们列出了标准 COCO 检测模型以供参考。我们还列出了两个使用额外数据预先训练的最先进模型。

结果见表 2。总体而言，GLIP 模型在zero-shot和监督下都取得了很好的性能。zero-shot GLIP 模型可以媲美甚至超越成熟的监督模型。最佳 GLIP-T 的 AP 为 46.7，超过了 Faster RCNN；GLIP-L 的 AP 为 49.8，超过了 DyHead-T。在监督设置下，最佳 GLIP-T 比标准 DyHead 提高了 5.5 个 AP（55.2 对 49.7）。有了 Swin-Large 骨干，GLIP-L 在 COCO 上超越了当前的 SoTA，在 2017val 上达到了 60.8，在 test-dev 上达到了 61.5。

我们分析了 GLIP 的zero-shot性能，发现有三个促成因素：

Objects365 和 COCO 之间的密切领域重叠、深度融合和定位数据。由于 Objects365 涵盖了 COCO 中的所有类别，O365 预训练的 DyHead-T 显示出很强的性能，达到 43.6 个零拍 AP；
将模型重组成接地模型后，我们发现性能略有下降（GLIP-T (A)）；添加深度融合后，性能提高了 2 个 AP（GLIP-T (B)）。
最大的贡献者是真实定位数据，有了它，GLIP-T © 达到了 46.7 的zero-shot AP。虽然图像-文本数据的加入对 COCO（GLIP-T 与 GLIP-T ©）的改进微乎其微，甚至没有任何改进，但我们发现它在泛化稀有类别时非常重要，正如我们在 LVIS 实验中所显示的那样。

4.2. Zero-Shot Transfer on LVIS(LVIS上的zero-shot迁移)

我们评估了该模型在Zero-Shot环境下识别 LVIS 上各种罕见物体的能力。我们报告了包含 5,000 张在 MDETR 中引入的图像的 MiniVal 以及完整的验证集 v1.0。

结果见表 3。我们列出了在 LVIS 的注释数据上训练的三种监督模型。GLIP 在所有类别中都表现出很强的Zero-Shot性能，GLIP-T 与有监督的 MDETR 不相上下，而 GLIP-L 则远远优于有监督的-RFS。

在这里插入图片描述

使用定位数据的好处显而易见。真实定位数据使 MiniVal APr（模型 C 与模型 B）提高了 4.2 分。添加图像文本数据后，性能进一步提高了 3.1 分。我们的结论是，丰富的语义基础数据大大有助于模型识别稀有对象。

4.3. Phrase Grounding on Flickr30K Entities（Flickr30K 实体上的短语定位）

我们在 Flickr30K 实体上对模型的自然语言实体定位能力进行了评估。Flickr30K 包含在真实定位数据中，因此我们按照 MDETR的方法，在预训练后直接评估模型。我们使用了 MDETR 中指定的任意框协议。结果见表 4。我们用不同的预训练数据对三个版本的 GLIP 进行了评估。我们列出了 SoTA 接地模型 MDETR 的性能。MDETR 在包含 130 万数据的 GoldG+ 上进行训练（GoldG 是 GoldG+ 的子集，不包括 COCO 图像）。

在这里插入图片描述

使用 GoldG 的 GLIP-T（第 3 行）与使用 GoldG+ 的 MDETR 性能相似，这可能是由于引入了 Swin Transformer、DyHead 模块和深度融合。更有趣的是，增加检测数据有助于接地（第 4 行对第 3 行），再次显示了这两项任务之间的协同作用以及我们的统一损耗的有效性。图像文本数据也有帮助（第 5 行相对于第 4 行）。最后，扩展 (GLIP-L) 可以达到 87.1 Recall@1，比之前的 SoTA 高出 2.8 个百分点。

在这里插入图片描述

4.4. Analysis

在本节中，我们通过在不同数据源（表 5）上预训练 GLIP-T 来进行消融研究。我们回答了两个研究问题：

定位数据和检测数据的结合可以带来效果提升

首先，我们的方法假设使用检测数据集来引导模型。一个自然而然的问题是，当与不同的检测数据配对时，定位数据是否会带来改进。我们发现，添加定位数据与不同的检测数据（第 1-6 行）能带来一致的改进。

定位数据的丰富能捕捉罕见类别

其次，我们已经展示了常见和罕见类别的基础数据的有效性。一个正交方向是通过包含更多图像和类别来扩大检测数据（第 3.3 节）。我们打算对扩大检测数据和定位数据进行实证比较。我们介绍了使用 4 个公共检测数据集（第 8 行）训练的 GLIP，作为使用人类注释扩大检测数据规模的极端尝试。该模型总共使用了 266 万个检测数据进行训练，对齐的词汇量超过 1500 个类别。然而，它在 COCO 和 LVIS 的 APr 上仍然落后于第 6 行，第 6 行仅使用了 0.66M 检测数据和 0.8M 定位数据进行训练。添加图像文本数据后，LVIS APr 的差距进一步拉大（20.8 对 15.0）。我们的结论是，定位数据的语义确实更加丰富，是扩大检测数据的一个有前途的替代方案。

5. Object Detection in the Wild（在野外的物体检测）

为了评估 GLIP 在各种实际任务中的可移植性，我们策划了一个 “野外物体检测”（ODinW）环境。我们在 Roboflow 上选择了 13 个公共数据集，每个数据集都需要不同的定位技能。例如，EgoHands 需要定位人的手；Pothole 涉及检测道路上的洞；ThermalDogsandPeople 涉及识别红外图像中的狗和人。

我们已经证明，GLIP 可以帮助我们完成这些不同的任务。

GLIP 带来了极高的数据效率，与基线相比，它能以更少的特定任务数据达到相同的性能（第 5.1 节）。
GLIP 实现了新的领域转移策略：在适应新任务时，我们可以简单地更改文本提示，而保持整个基础模型不变。这大大降低了部署成本，因为它允许一个集中模型服务于各种下游任务（第 5.2 节）。

5.1. Data Efficiency（数据效率）

我们改变任务特定注释数据的数量，从零次（不提供数据）到 X 次（每个类别至少提供 X 个示例），再到使用训练集中的所有数据。我们在提供的数据上对模型进行微调，并对所有模型使用相同的超参数。每个数据集都有预先指定的类别名称。由于 GLIP 是语言感知的，我们发现用更具描述性的语言重写一些预先指定的名称是有益的（讨论见第 5.2 节）。我们与在 Objects365 上预先训练过的 SoTA 检测器 DyHead-T 进行了比较。我们还测试了标准 COCO 训练的 DyHead-T，发现其性能与之类似。为简单起见，我们仅报告前者。我们还尝试了缩放余弦相似性方法，但发现其性能略低于 vanilla 方法，因此我们只报告了后者。

结果如图 4 所示。我们发现，统一定位重构、深度融合、定位数据和模型扩展都有助于提高数据效率（从底部红线（Dyhead-T）到上部紫线（GLIP-L））。因此，GLIP 展示了变革性的数据效率。 zero-shot的 GLIP-T 优于 5 -shot的 DyHead-T，而 one-shot的 GLIP-L 与完全监督的 DyHead-T 相比具有竞争力。

在图 5 中，我们进一步绘制了 GLIP 变体在 5 个不同数据集上的 zero-shot性能。我们发现，在某些测试新概念的任务中，定位数据的引入带来了显著的改进，例如，在 Pothole 和 EgoHands 上，没有定位数据的模型（A 和 B）表现糟糕，而有定位数据的模型（C）则轻松胜出。
在这里插入图片描述

5.2. One Model for All Tasks（一个模型适用于所有任务）

随着神经模型越来越大，如何降低部署成本引起了越来越多的研究兴趣。最近在语言模型、图像分类和物体检测方面的研究，都在探索如何将预先训练好的模型适应新的领域，但只改变最少的参数。这种设置通常被称为线性探测（linear probing）、提示调整（prompt tuning）或高效任务适配器（efficient task adapters）。我们的目标是让一个模型为各种任务服务，而每个任务只在预训练模型上添加几个特定于任务的参数或不添加任何参数。这就降低了训练和存储成本。在本节中，我们将根据部署效率指标对模型进行评估。

手动提示调整。由于 GLIP 执行的是语言感知本地化，即 GLIP 的输出在很大程度上取决于语言输入，因此我们提出了一种让 GLIP 进行任务转移的有效方法：对于任何新类别，用户可以在文本提示中使用表达性描述，添加属性或语言上下文，以注入领域知识并帮助 GLIP 转移。例如，在图 6 的左侧，模型未能定位新实体 "stingray"的所有出现。然而，通过在提示中添加属性，即 “flat and round”，模型成功地定位了所有出现的stingray。通过这一简单的提示更改，我们将stingray的 AP50 从 4.6 提高到了 9.7。这类似于 GPT-3 中的提示设计技术，由于不需要注释数据或重新训练模型，因此非常实用。

提示调整。我们进一步考虑了这样一种情况，即我们可以获得特定任务的训练数据，但希望调整最少的参数以便于部署。对于经典检测模型，Wang 等人报告了 “线性探测”（即只训练box回归和分类头）的有效性。GLIP 也可以采用 “线性探测”，即只微调box和区域与提示嵌入之间的投影层。由于采用了语言感知深度融合技术，GLIP 支持一种更强大但仍然高效的传输策略：提示调整。对于 GLIP，由于每个检测任务只有一个语言提示（例如，对所有图像而言，"pothole"的提示可以是 “Pothole”），因此我们首先从语言骨干中获得提示嵌入 $P^0$ ，然后舍弃语言骨干，仅将 $P^0$ 作为特定任务输入进行微调（第 3.2 节）。

我们评估了模型在三种设置下的性能（图 7）：线性探测、提示调整（仅适用于 GLIP）和全模型调整。对于 DyHeadT，由于传统的对象检测模型无法接受语言输入，因此提示调整并不适用；线性探测和全模型调整之间的差距很大。GLIP-T (A) 没有语言感知深度融合，因此提示调整和线性调整的性能相似，但明显落后于全模型调整。然而，对于 GLIP-T 和 GLIP-L，在不改变任何定位模型参数的情况下，提示调整几乎可以达到完全调整的结果。有趣的是，随着模型和数据规模的增大，全模型调整和提示调整之间的差距也越来越小（GLIP-L vs GLIP-T），这与 NLP 文献的研究结果不谋而合。