FastInst: A Simple Query-Based Model for Real-Time Instance Segmentation-CSDN博客

本文链接：https://blog.csdn.net/weixin_43780665/article/details/133936161

Abstract

最近对实例分割的关注主要集中在基于查询的模型上。尽管没有非最大抑制(NMS)和端到端，但这些模型在高精度实时基准测试中的优越性尚未得到很好的证明。在本文中，我们展示了基于查询的模型在高效实例分割算法设计上的强大潜力。我们提出了FastInst，一个简单，有效的基于查询的实时实例分割框架。FastInst可以以实时速度(即32.5 FPS)执行，同时在COCO测试开发中产生超过40(即40.5 AP)的AP，而无需附加功能。具体来说，FastInst遵循最近引入的Mask2Former的元架构。它的关键设计包括实例激活引导查询，双路径更新策略和ground truth mask-guided学习，这使我们能够使用更轻的像素解码器，更少的Transformer解码器层，同时获得更好的性能。实验表明，FastInst在速度和准确性方面都优于大多数最先进的实时同行，包括强大的全卷积基线。代码可以在https://github.com/junjiehe96/ FastInst上找到。

1. Introduction

实例分割旨在分割图像中所有感兴趣的对象。Mask R-cnn等主流方法[5,15,19,28]采用的是先检测后分割的设计。尽管这些方法简单直观，但会产生大量的重复区域表示，从而引入冗余计算。为了提高效率，出现了许多基于全卷积网络(Fully Convolutional Networks, FCNs)[29]的单阶段方法[2,8,23,42]。它们在没有区域表示的情况下对对象进行端到端的分割。这种方法的推理速度非常快，特别是在实时场景中。然而，由于预测的密集性，经典的单阶段方法仍然依赖于人工设计的后处理步骤，如非最大抑制(NMS)。

最近，随着DETR[4]在目标检测上的成功，基于查询的单阶段实例分割方法[9,10,25,43]出现了。他们没有使用卷积，而是利用多功能和强大的注意力机制[39]结合一系列可学习的查询来推断对象类别和分割掩码。例如，Mask2Former[9]通过在主干上添加一个像素解码器和一个掩码注意力Transformer解码器，简化了实例分割的工作流程。与以前的方法[15,42]不同，Mask2Former不需要额外的手工制作组件，如训练目标分配和NMS后处理。虽然很简单，但Mask2Former有它自己的问题:(1)它需要大量的解码器层来解码对象查询，因为它的查询是静态学习的，需要一个漫长的过程来改进;(2)它依赖于重像素解码器，如多尺度变形注意Transformer(MSDeformAttn)[50]，因为它的目标分割掩码直接依赖于像素解码器的输出，作为逐像素嵌入特征来区分不同的对象;(3)掩码注意力限制了每个查询的接受域，这可能会导致Transformer解码器陷入次优查询更新过程。虽然Mask2Former取得了优异的成绩，但它快速、高效的实例分割的优势尚未得到很好的证明，但这对于自动驾驶汽车和机器人等许多现实应用至关重要。事实上，由于缺乏先验知识和注意机制的高计算复杂度，基于查询的模型的效率通常不能令人满意[9,18,25]。高效的实时实例分割基准测试仍然由经典的基于卷积的模型主导[11,42]。

在本文中，我们提出了FastInst，这是一个简洁有效的基于查询的实时实例分割框架，填补了这一空白。研究表明，基于查询的模型在保持较快速度的同时，在实例分割任务上取得了优异的性能，在高效的实例分割算法设计中显示出巨大的潜力。举个例子，我们设计的最快的基于查询的模型具有ResNet-50[16]骨干网，在COCO[27] test-dev上以53.8 FPS(每秒帧数)实现35.6 AP，在单个V100 GPU上进行评估(见图1);此外，我们的最佳权衡模型可以在实时速度下执行，即32.5 FPS，同时产生超过40的AP，即40.5 AP，据我们所知，这在以前的方法中尚未实现。

具体来说，我们的模型遵循Mask2Former[9]的元架构。为了实现高效的实时实例分割，我们提出了三个关键技术。首先，我们使用实例激活引导查询，它动态地从底层特征映射中选择具有高语义的像素嵌入作为Transformer解码器的初始查询。与静态零[4]或可学习查询[9,10]相比，这些被挑选的查询包含了丰富的关于潜在对象的嵌入信息，减少了Transformer解码器的迭代更新负担。其次，我们在Transformer解码器中采用了查询特征和像素特征交替更新的双路径架构。这样的设计提高了像素特征的表征能力，使我们从繁重的像素解码器设计中解脱出来。该算法实现了查询特征与像素特征之间的直接通信，加快了迭代更新收敛速度，有效降低了对解码器层数的依赖。第三，为了防止掩码注意力陷入次优的查询更新过程，我们引入了ground truth mask-guided learning。我们用最后一层二部匹配GT代替标准掩码注意中使用的掩码，再次转发Transformer解码器，并使用固定的匹配分配来监督输出。该指导允许每个查询在训练期间看到其目标预测对象的整个区域，并帮助掩码注意力集中在更合适的前景区域。

我们在具有挑战性的MS COCO数据集[27]上评估FastInst。如图1所示，FastInst在保持速度的同时，在COCO基准测试中获得了强大的性能，超过了之前大多数最先进的方法。我们希望FastInst可以作为实时实例分割的新基准，推动基于查询的实例分割模型的发展。

2. Related Work

现有的实例分割技术可以分为三类，即基于区域的方法、基于实例激活的方法和基于查询的方法。

Region-based methods。基于区域的方法首先检测目标边界框，然后应用RoI- pooling[34]或RoI- align[15]等RoI操作提取区域特征，用于目标分类和掩码生成。作为一项开创性的工作，Mask R-CNN[15]在Faster R-CNN[34]之上增加了一个掩码分支来预测每个对象的分割掩码。后续方法要么专注于提高检测到的边界框的精度[3,5]，要么解决mask R-CNN中出现的低质量分割掩码问题[12,21,36]。尽管这些基于区域的方法在几个基准测试上的性能有所提高，但这些方法受到大量重复区域表示的影响，影响了模型的效率。

Instance activation-based methods。基于实例激活的方法使用一些有意义的像素来表示目标，并在预测过程中训练这些像素的特征来进行分割。此类方法的典型类是基于中心激活[2,37,42,47]，它强制对象的中心像素与分割和分类相对应。例如，SOLO[41,42]利用目标的中心特征来预测分割的掩码核。MEInst[46]和CondInst[37]在基于中心激活的检测器FCOS[38]的基础上建立模型，并增加了用于动态卷积的预测掩模嵌入向量的分支。最近，SparseInst[11]学习了一个加权像素组合来表示对象。提出的FastInst利用对象区域中具有高级语义的像素作为对象的表示，并提取其特征作为查询。

Query-based methods 。基于查询的方法在DETR[4]中出现，并表明具有端到端集预测的Transformer编码器-解码器[39]的卷积主干可以在实例分割任务上取得良好的性能。SOLQ[13]和ISTR[18]利用学习到的对象查询来推断掩码嵌入用于实例分割。Panoptic SegFormer[25]增加了一个位置解码器来提供物体的位置信息。Mask2Former[9,10]引入了掩码注意力，以提高性能和更快的收敛速度。Mask DINO[24]将目标检测和图像分割任务统一起来，在实例分割上取得了很好的效果。尽管具有出色的性能，但基于查询的模型通常在计算上过于昂贵，无法应用于现实世界。与卷积网络相比[11,42]，它们在快速、高效的实例分割方面的优势尚未得到很好的证明。我们的目标是利用Transformer强大的建模功能，同时设计一个高效、简洁和实时的实例分割方案，以促进基于查询的分割方法的应用。此外，许多工作[40,45]也在图像分割任务中使用了双路径Transformer架构。然而，它们的设计通常很复杂，难以部署。为了提高效率，我们简单地在普通Transformer层上构建双路径架构。

3. Methods

3.1. Overall architecture

如图2所示，FastInst由三个模块组成:主干、像素解码器和Transformer解码器。

我们的模型将输入图像I∈RH×W ×3输入主干，得到三个特征图C3、C4和C5，它们的分辨率分别为输入图像的1/8、1/16和1/32。我们通过1×1卷积层将这三个特征映射投影成具有256个通道的特征映射，并将它们输入像素解码器。像素解码器聚合上下文信息并输出增强的多尺度特征图E3, E4和E5。之后，我们从特征映射E4中选取Na个实例激活引导查询，与Nb个辅助可学习查询连接，得到总查询Q∈RN×256，其中N = Na + Nb。Transformer解码器将总查询Q和展开的高分辨率像素特征E3作为输入，表示为X∈RL×256，其中L = H/8 × W/8。然后在Transformer解码器中，我们以双路径方式更新像素特征X和查询Q，并预测每个解码器层的对象类别和分割掩码。

现在我们详细讨论每个组件。

3.2. Lightweight pixel decoder

多尺度上下文特征映射对于图像分割至关重要[6,20,42]。然而，使用复杂的多尺度特征金字塔网络会增加计算量。与之前的方法[9,10]不同，这些方法直接使用来自像素解码器的底层特征映射，我们使用Transformer解码器中精细化的像素特征来生成分割掩码。这种设置减少了对大量上下文聚合的像素解码器的需求。因此，我们可以使用轻量级的像素解码器模块。为了更好地在精度和速度之间进行权衡，我们使用了一种称为PPM-FPN[11]的变体，而不是普通的FPN[26]，它在C5之后采用金字塔池模块[48]来扩大接受域以提高性能。

3.3. Instance activation-guided queries

对象查询在Transformer体系结构[4]中起着至关重要的作用。DETR收敛缓慢的原因之一是它的对象查询是零初始化的。虽然可学习查询[9]缓解了这个问题，但它们仍然是图像无关的，需要许多Transformer解码器层来改进。受Deformable DETR[50]从金字塔特征中选择查询边界框进行对象检测的启发，我们提出了实例激活引导查询，直接从底层多尺度特征映射中选择具有高语义的查询。具体地说，给定像素解码器的输出特征映射，我们添加一个辅助分类头，然后进行softmax激活，在特征映射E4上为每个像素生成类概率预测Pi∈∆K+1,其中∆K + 1是(K + 1)维概率数,K是类的数量,增加一个“无对象”(∅)，i是像素值，辅助分类头分别由两个3×3和1×1内核大小的卷积层组成。通过Pi，我们得到每个像素的前景概率pi,ki, ki = argmaxk{pi,k|pi,k∈pi,k∈{1，···，k}}。然后从特征图E4中选择前景概率较高的Na个像素嵌入作为对象查询。在这里，我们首先选择的pi,ki是对应类平面上的局部最大值(即pi,ki≥pn,ki, n∈δ(i)，其中δ(i)是i的空间8相邻索引集)，然后在{pi,ki}i中选择前景概率最高的。请注意，在相应的类平面上具有非局部最大概率的像素意味着在其8邻域中存在一个具有该类更高概率分数的像素。由于位置如此接近，我们自然倾向于选择其相邻像素，而不是将其作为对象查询。

在训练过程中，我们使用基于匹配的Hungarian损失[4,35]来监督辅助分类头。与[50]不同，[50]使用先验锚boxes和二元分类分数来匹配问题，我们简单地使用带有位置损失Lloc的类预测来计算分配成本。定位损失Lloc定义为一个指标函数，当像素位于该对象的区域时，该函数为0;否则为1。这个代价背后的真相是，只有落在对象内的像素才能推断该对象的类和掩码嵌入。同时，该损失减少了二部匹配空间，加快了训练收敛速度。

我们将从上述策略生成的查询称为实例激活引导(IA-guided)查询。与零[4]或可学习查询[9]相比，IA-guided的查询在初始时保存了关于潜在对象的丰富信息，并提高了Transformer解码器中查询迭代的效率。注意，我们也可以从特征映射E3或E5中选择查询。较大的特征映射包含更丰富的实例线索，但计算负担更重。我们使用中等大小的特征映射E4进行权衡。

3.4. Dual-path Transformer decoder

在从底层特征映射中选择Na个IA-guided查询后，我们将它们与Nb个辅助可学习查询连接起来，得到总查询Q，其中辅助可学习查询用于方便对背景像素特征进行分组，并在随后的双更新过程中提供与图像无关的一般信息。然后将总查询Q与展开的1/8高分辨率像素特征X一起馈送到Transformer解码器。在Transformer解码器中，我们为查询Q和像素特征X添加位置嵌入，然后通过连续的Transformer解码器层来更新它们。一个Transformer解码器层包含一个像素特征更新和一个查询更新。整个过程类似于EM(期望最大化)聚类算法。E步:根据像素特征所属的中心(查询)更新像素特征;M步:更新集群中心(查询)。与单路径更新策略[9]相比，双路径更新策略同时优化了像素特征和查询，减少了对重像素解码器的依赖，获得了更细粒度的特征嵌入。最后，我们使用改进的像素特征和查询来预测每一层的对象类别和分割掩码。

Positional embeddings. 位置信息对于区分具有相似语义的不同实例至关重要，特别是对于具有相同类的对象[37,41,42]。我们使用可学习的位置嵌入代替非参数正弦位置嵌入[9]，我们发现它可以在不影响性能的情况下提高模型推理速度。具体来说，我们使用一个固定大小的可学习空间位置嵌入P∈RS×S×256，其中S为空间大小，我们经验地将其设置为IA-guided查询数Na的四舍五入的平方根。在转发过程中，我们将P插值到两个不同的大小。一个与E3大小相同，然后将其平面化为像素特征X的位置嵌入;另一个与E4大小相同，我们根据它们在特征映射E4中的位置{(xi, yi)}Nai=1选择IA-guided查询的位置嵌入。辅助可学习查询使用额外的Nb可学习位置嵌入。

Pixel feature update. 我们首先更新像素特征。给定展平的像素特征X和查询Q，像素特征更新管道由交叉注意层和前馈层组成，如图2右侧所示。位置嵌入被添加到每个交叉注意层[4]的查询和键。对于像素特征的更新，我们没有使用自注意，由于像素特征的序列长度太长，会带来大量的计算和内存开销。可以通过对查询的交叉注意来聚合全局特征。

Query update. 不对称地，我们使用掩码注意，然后是自注意和前馈网络进行查询更新，如Mask2Former[9]。掩码注意将每个查询的注意限制在前一层预测掩码的前景区域内，并假设通过后续自注意收集上下文信息。这样的设计显著提高了基于查询的模型在图像分割任务[9]中的性能。在这里，位置嵌入也被添加到每个掩码和自注意层的查询和键。

Prediction. 我们在每个解码器层的改进的IA-guided查询之上应用两个独立的3层MLPs，分别预测对象类和掩码嵌入。每个IA-guided查询都需要预测所有对象类的概率，包括“no object”(∅)类。对改进后的像素特征进行线性投影，得到掩模特征。然后将掩码嵌入与掩码特征相乘，得到每个查询的分割掩码。这里，每个Transformer解码器层的mlp和线性投影参数不共享，因为查询和像素特征交替更新，它们的特征可以在不同解码器层的不同表示空间中。此外，实例分割需要每个预测的置信度分数进行评估。我们遵循之前的工作[9]，并将类概率分数与掩码分数(即前景区域掩码概率的平均值)相乘作为置信度分数。

3.5. Ground truth mask-guided learning

尽管掩码注意引入了先验稀疏注意知识，加速了模型收敛并提高了性能，但它限制了每个查询的接受域，并可能导致Transformer解码器陷入次优查询更新过程。为了缓解这个问题，我们引入了ground truth (GT) mask-guided learning。首先，我们使用最后一层的二部匹配的GT掩码来替换第l层的掩码注意所使用的预测掩码。对于不匹配最后一层任何实例的查询(包括辅助可学习查询)，我们使用标准的交叉注意，即:

式中Mli为第l层第i个查询的注意掩码，σ = {(i, j)|i∈{1，···，Na}， j∈{1，···，Nobj}}为最后一层解码器层的匹配，Mgt j为最后一层第i个查询匹配的GT掩码。这里Nobj表示GT目标的数量。然后，我们使用替换后的注意掩码Ml结合第l层的原始输出查询和像素特征，对其进行细化和更好的引导，作为再次转发第l层Transformer解码层的输入。新的输出根据固定的匹配σ进行监督，与上一层的二部匹配结果一致。这种固定匹配保证了每个Transformer解码器层预测的一致性，节省了训练过程中的匹配计算成本。通过这种引导学习，我们允许每个查询在训练过程中看到其目标预测对象的整个区域，这有助于掩码注意力集中在更合适的前景区域内。

3.6. Loss function

FastInst的整体损失函数可以写成:

其中，LIA-q为IA-guided查询的辅助分类头的实例激活损失，Lpred和L 'pred分别为预测损失和GT掩码引导损失。

Instance activation loss. LIA-q定义为:

其中λcls-q为超参数，Lcls-q为“无目标”类的权值为1/T的交叉熵损失。这里T = (H/16)×(W/16)是E4的空间大小，从中选择IA-guided的查询。我们使用Hungarian算法[22]来搜索预测集和GT集之间的最优二部匹配。对于匹配成本，我们在上述分类成本的基础上增加一个权重为λloc的额外定位损失Lloc，如3.3节所示。

Prediction loss. 根据之前的工作[9]，定义Transformer解码器的预测损失Lpred为:

其中D表示Transformer解码器层数，i = 0表示 IA-guided查询在输入Transformer解码器之前的预测损失，Lice和Lidice分别表示分割掩码的二进制交叉熵损失和dice损失[31]，Lcls是对象分类的交叉熵损失，“无对象”权重为0.1。λce， λdice和λcls是平衡三种损失的超参数。同样，我们利用Hungarian算法来搜索目标分配的最佳二部匹配。对于匹配成本，我们为每个查询添加一个额外的定位损失λ locLloc。

GT mask-guided loss. GT掩码引导的损失L’pred与式(4)相似，不同之处是不计算第0层的损失，采用固定目标分配策略，与最后一层Transformer解码器的二部匹配结果一致。

4. Experiments

在本节中，我们将在COCO[27]上评估FastInst，并将其与几种最先进的方法进行比较。我们还进行了详细的消融研究，以验证每个提出的模块的有效性。

4.1. Implementation details

我们的模型是用detectron2[44]实现的。我们使用带有步进学习率计划的AdamW[30]优化器。初始学习率为0.0001，权值衰减为0.05。我们将学习率乘法器0.1应用于主干(imagenet预训练)，并在训练迭代总数的0.9和0.95分数处将学习率衰减10。在[9]之后，我们训练我们的模型50次，批大小为16。对于数据增强，我们使用与[11]相同的尺度抖动和随机裁剪。例如，较短的边缘在416 ~ 640像素之间，较长的边缘不超过864像素。我们将损失权值λcls、λce和λdice分别设置为2.0、5.0和5.0，如[9]中所示。λcls-q和λloc分别设为20.0和1000.0。默认情况下，我们使用100个IA-guided查询和8个辅助可学习查询。我们报告了AP性能以及FLOPs和FPS。使用100张验证图像平均FLOPs。FPS是在V100 GPU上使用整个验证集测量的，批处理大小为1。除非指定，否则我们使用640像素的较短边缘和不超过864像素的较长边缘来测试和评估模型。

4.2. Main results

我们将FastInst与表1中COCO数据集上最先进的方法进行了比较。由于FastInst的目标是高效的实时实例分割，我们主要将其与最先进的实时实例分割算法在准确性和推理速度方面进行比较。在COCO test-dev上进行评估。我们为FastInst提供不同的主干和不同数量的Transformer解码器层，以实现速度和精度之间的权衡。结果表明，FastInst以更好的性能和更快的速度优于之前大多数最先进的实时实例分割方法。例如，使用ResNet50[16]骨干网，设计的FastInst-D1模型比强卷积基线SparseInst[11]性能高0.9 AP，同时使用更少的训练epoch和更少的推理时间。我们还将FastInst与基于查询的模型Mask2Former[9]进行了比较。为了保持相似的速度和精度，我们将Mask2Former中的MSDeformAttn[50]像素解码器替换为基于ppm - fpn的解码器，这与FastInst和SparseInst[11]相同。同时，为了公平比较，将Mask2Former的训练设置，包括数据增强，替换为与FastInst相同。正如预期的那样，Mask2Former依赖于一个强大的像素解码器，在精度和速度上都不如使用一个更轻的像素解码器(即使它有9个解码器层)的FastInst，在实时基准测试中显示出更低的效率。此外，在ResNet-50-d-DCN[17, 49]骨干网下，我们的算法实现了32.5 FPS和40.5 AP，这是表1中唯一一个在保持实时速度(≥30 FPS)的情况下，实现AP>40的算法。图1展示了速度-精度权衡曲线，这也证明了我们方法的优越性。

4.3. Ablation studies

我们现在进行一系列消融研究来分析FastInst。我们首先验证了提出的三个关键组件的有效性，即 IA-guided查询、双路径更新策略和GT掩码引导学习，然后研究了其他一些关于FastInst的设计的效果。除非另有说明，我们使用ResNet-50[16]骨干网在FastInst-D3上进行实验。所有消融结果均在COCO val2017集上进行评估。

IA-guided queries. 如表2所示，我们的IA-guided查询比零查询或基于学习的查询[9]获得更好的结果。最近的工作[32]提出使用调整大小的多尺度特征作为实例查询。然而，这种固定位置查询选择策略很难提取所有潜在对象的代表性嵌入，因此性能较差。请注意，当模型仅配备一个Transformer解码器层时，IA-guide查询可以获得更显著的结果，这显示了它们在轻量级模型设计中的巨大效率。

Dual-path update strategy. 表3显示了双路径更新策略的有效性。由于查询和像素特征的协同优化，在我们的轻量级像素解码器设置中，我们的双路径更新策略比传统的单查询更新策略[9]执行得更好。在我们的实验中，查询和像素特征的更新顺序并不重要。

GT mask-guided learning. 如表4所示, GT掩码引导学习将模型性能提高了0.5 AP，这表明该技术确实帮助Transformer解码器学习如何在掩码注意机制下更新查询以获得更好的对象嵌入。表4还展示了GT掩码引导学习对不同主干的通用性。

以上实验证明了我们提出的三种关键技术的有效性。我们建议有兴趣的读者参阅附录，了解更多关于它们的细节，例如，基于原始Mask2Former的更改和相应的改进。然后，我们探讨了关于FastInst的其他一些设计的影响。

Pixel decoder. FastInst与任何现有的像素解码器兼容。表5显示了使用不同像素解码器时FastInst的性能。更强的像素解码器产生更好的上下文特征，并导致更高的结果，但消耗更多的计算。对于快速实时的实例分割，PPM-FPN[11]是一个很好的权衡选择。

Transformer decoder layer number. 如表6a所示，增加Transformer解码器层的数量有助于提高FastInst中的分割性能。特别是，在不使用Transformer解码器的情况下，掩码性能达到30.5 AP。这主要归因于IA-guided查询的有效性，它在初始时携带了关于潜在对象的丰富嵌入信息。此外，我们的分割性能在第六层左右饱和。继续增加解码器层只能略微改善它。还要注意的是，FastInst仅使用几个Transformer解码器层就可以获得良好的性能，这在实时中是有利的。

IA-guided query number. 在Mask2Former中，将查询数增加到100以上会略微降低实例分割性能。在表6b中，结果表明，增加IA-guided查询的数量将有助于提高FastInst中的分割性能。我们将此归因于改进的对象召回(见表6c)和增加的解码对象嵌入信息。另一方面，不断增长的IA-guided查询将影响模型推理速度。请注意，即使使用10个IA-guided查询，我们的模型也可以在COCO数据集上获得31.2 AP，平均每个图像有7.7个实例。这再次表明了IA-guided查询的有效性。

Auxiliary learnable query number . 辅助查询旨在收集与背景和图像无关的信息，用于像素特征更新和查询更新。他们不参与物体预测。表6d显示，添加一些辅助的可学习查询有助于提高性能，比将所有查询设置为IA-guided的查询要好。

Query selection source. 如表6e所示，从较大的特征映射中选择IA-guided的查询会得到更好的结果。E4是精度和速度之间的一个很好的权衡选择。然而，选择源对模型性能的贡献是有限的。

Instance activation loss. 我们研究了实例激活损失中两种成分的影响。如表6f所示，基于二部匹配的目标分配策略带来了显著的增益，它为IA-guided的查询选择提供了稀疏的像素嵌入激活。在这里，当去除二部匹配策略时，我们使用语义类标签作为每个像素的目标，就像常见的语义分割任务一样[6,7]。定位损失在匹配损失中也起着至关重要的作用，它减少了匹配空间，加速了模型的收敛。图3可视化了IA-guided查询的分布，这也显示了我们设计的损失的优越性。

Positional embeddings. 表7表明，使用可学习的位置嵌入代替非参数正弦位置嵌入可以在不影响性能的情况下提高模型推理速度。

5. Conclusion

我们提出FastInst用于实时实例分割。FastInst由基于查询的分割框架[9]和三个设计的高效组件组成，即实例激活引导查询、双路径更新策略和ground truth mask-guided学习，在保持快速推理速度的同时，在流行的COCO数据集上实现了出色的性能。大量的实验证明了其核心思想的有效性和FastInst优于先前最先进的实时同行。我们希望这项工作可以作为实时实例分割的新基线，促进基于查询的图像分割算法的发展。

Limitations. (1)与一般基于查询的模型[4,9,25]一样，FastInst并不擅长小目标。尽管使用更强的像素解码器或更大的特征映射可以改善它，但它带来了更大的计算负担，结果仍然令人不满意。我们期待着解决这个问题的根本办法。(2) GT mask-guided学习虽然提高了掩码注意的性能，但增加了训练成本。我们希望可以提出一种更好的方法来取代它。