【转载翻译】HOTA详细分析

最新推荐文章于 2025-03-07 13:33:16 发布

熠熠发光的白

最新推荐文章于 2025-03-07 13:33:16 发布

阅读量3.6k

点赞数 6

分类专栏：翻译文章标签：目标跟踪人工智能计算机视觉

原文链接：https://jonathonluiten.medium.com/how-to-evaluate-tracking-with-the-hota-metrics-754036d183e1

版权

翻译专栏收录该内容

1 篇文章

订阅专栏

如何理解用HOTA作为衡量指标

第一部分：如何计算HOTA指标
- 从三个不同的IoU得分构建HOTA
第二部分：如何使用HOTA指标对不同的跟踪器进行评估
第三部分：HOTA与其他跟踪指标的比较
总结

在关注多目标跟踪方向之后，对各种指标也仅仅只是做到了浅尝辄止的地步，今天看到一篇多年前的外国好文，对HOTA讲述的比较清楚，我用GPT辅助翻译搬运到csdn来，下面开始正文

HOTA（高阶追踪准确性）是一种新的用于评估多目标追踪（MOT）性能的指标。它旨在克服之前诸如MOTA、IDF1和Track mAP等指标的许多限制。

这篇简短的博客文章概述了HOTA最重要的几个方面，分为三个部分：

如何计算HOTA指标。
如何使用HOTA指标比较追踪器。
HOTA与其他追踪指标的比较。

更多关于HOTA的细节，请查阅2020年IJCV论文以及GitHub上的指标代码。

第一部分：如何计算HOTA指标

HOTA可以被视为三个IoU得分的组合。它将跟踪评估任务分为三个子任务（检测、关联和定位），并使用IoU（交并比）公式（也称为杰卡德指数）为每个子任务计算得分。然后，它将这三个子任务的IoU得分组合成最终的HOTA得分。

下面我们来看看这三个子任务的IoU得分是如何计算的。

定位

定位衡量一个预测检测和一个真实检测之间的空间对齐程度。定位IoU（Loc-IoU）通常用于许多评估指标中，以衡量定位准确性。它的计算方法是两个检测之间的重叠（交集）与它们覆盖的总面积（并集）的比例。这可以在下图中看到。
在这里插入图片描述

这个概念可以从边界框轻松扩展到分割掩码。如图所示，当Loc-IoU得分增加时，预测和真实检测的空间对齐更好，定位也得到了改善。

我们可以通过对整个数据集中所有匹配的预测和真实检测对的Loc-IoU进行平均，来衡量整体的定位准确度（LocA）：
$\mathrm{LocA = \frac{1}{|TP|} \Sigma_{c \in TP}Loc-IoU(c)}$
** 检测**

检测用于衡量所有预测检测集合与所有真实检测集合之间的对齐程度。检测IoU（Det-IoU）也常用于衡量检测准确性。在这里，我们需要定义预测和真实检测集合之间哪些检测是相交的。为此，我们定义一个定位阈值（例如Loc-IoU > 0.5），当超过此阈值时，我们认为两个检测相交。然而，一个预测检测可能与多个真实检测重叠（反之亦然）。为了处理这个问题，我们运行匈牙利算法来确定预测检测和真实检测之间的一对一匹配。这些匹配的检测对称为真正阳性（TP），可以被视为两组检测之间的交集。不匹配的预测检测是假正阳性（FP），不匹配的真实检测是假阴性（FN）。然后根据以下公式给出检测IoU：
$\mathrm{Det-IoU = \frac{|TP|}{|TP|+|FN|+|FP|}}$
我们可以看到，这与Loc-IoU基本上是相同的结构。它是交集面积（匹配部分，或者说是TPs）除以总面积（所有检测的并集）。而Loc-IoU衡量的是单个预测和真实检测之间的对齐，Det-IoU现在衡量的是所有预测检测和所有真实检测集合之间的对齐。这种基于集合的IoU公式也常被称为杰卡德指数。

我们可以通过计算整个数据集上的TPs、FNs和FPs的数量来简单地计算整体的检测准确度（DetA）：
$\mathrm{DetA = Det-IoU = \frac{|TP|}{|TP|+|FN|+|FP|}}$

关联

关联用于衡量跟踪器如何将检测随时间链接为相同的身份（ID），给定真实轨迹中的身份链接集。我们可以通过取一个预测检测和一个与之匹配的真实检测（如上所述使用匈牙利匹配），并衡量这个预测检测的整个轨迹与真实检测的整个轨迹之间的对齐程度来衡量这一点。这种对齐可以再次用IoU公式表示。

两个轨迹之间的交集可以衡量为两个轨迹之间的True Positive匹配数量，我们称这些为TPA。预测轨迹中剩余的检测（要么匹配到其他真实轨迹，要么根本没有匹配）是False Positive关联（FPA），真实轨迹中剩余的检测是False Negative关联（FNA）。然后可以以类似之前看到的方式计算关联IoU（Ass-IoU）：

$\mathrm{Ass-IoU = \frac{|TPA}{|TPA|+|FNA|+|FPA|}}$

这现在衡量了两个轨迹之间的对齐，为我们提供了每对匹配检测（TPs）的关联质量度量。

我们可以在下面看到TPA、FNA和FPA的视觉示例：
在这里插入图片描述
红色方块表示匹配的TP对，即预测检测和真实检测，我们希望为其找到关联分数。为了衡量这些检测之间的时间关联对齐程度，我们找出这两个轨迹中所有匹配的检测（绿色的TPAs）和所有不匹配的检测（黄色的FPAs和棕色的FNAs）。

我们可以通过对整个数据集中所有匹配的预测和真实检测对的Ass-IoU进行平均，来衡量整体的关联准确度（AssA）：
$\begin{aligned} \operatorname{AssA} & =\frac{1}{|\mathrm{TP}|} \sum_{c \in \mathrm{TP}} \operatorname{Ass-IoU}(c) \\ & =\frac{1}{|\mathrm{TP}|} \sum_{c \in \mathrm{TP}} \frac{|\mathrm{TPA}(c)|}{|\operatorname{TPA}(c)|+|\mathrm{FNA}(c)|+|\mathrm{FPA}(c)|} \end{aligned}$

从三个不同的IoU得分构建HOTA

显然，定位、检测和关联三个组成部分对于跟踪成功都很重要，所以衡量它们都很重要。然而，我们通常希望有一个单一的指标，用于对跟踪器的整体性能进行排名。这个指标就是HOTA，它是上面定义的所有三个IoU得分的组合：
$\begin{aligned} \mathrm{HOTA}_\alpha & =\sqrt{\operatorname{DetA}_\alpha \cdot \operatorname{AssA}_\alpha} \\ & =\sqrt{\frac{\sum_{c \in \mathrm{TP}_\alpha} \operatorname{Ass}^{-I_0 U_\alpha(c)}}{\left|\mathrm{TP}_\alpha\right|+\left|\mathrm{FN}_\alpha\right|+\left|\mathrm{FP}_\alpha\right|}} \\ \text { HOTA } & =\int_{0<\alpha \leq 1} \operatorname{HOTA}_\alpha \\ & \approx \frac{1}{19} \sum_{\substack{\alpha=0.05 \\ \alpha+=0.05}}^{0.95} \text { HOTA }_\alpha \end{aligned}$
请注意，之前，DetA和AssA都是使用基于某个Loc-IoU阈值（α）的匈牙利匹配定义的。由于DetA和AssA得分都依赖于Loc-IoU值，我们在不同的α阈值范围内计算这些得分。对于每个阈值，我们计算检测得分和关联得分的几何平均值作为最终得分。然后通过在不同的α阈值上积分，我们将定位准确性纳入最终得分。

使用几何平均数来结合检测和关联，确保了在最终得分中这两者的平均权重，并且如果检测或关联中的任何一个变为零，则得分变为零。此外，这具有解释性，即HOTA得分可以被视为Det-IoU公式，其中分子中的每个TP都按照该TP的Ass-IoU进行加权。例如，所有检测并集上Ass-IoU得分的平均值。

第二部分：如何使用HOTA指标对不同的跟踪器进行评估

有了HOTA指标家族，我们现在可以以前所未有的方式评估多目标跟踪。我们现在不仅可以看到一个跟踪器的优势，还可以看到它的优势在哪里，这对于在选择应用中的跟踪器以及研究如何改进当前跟踪器时理解跟踪器的底层行为至关重要。

例如，让我们看看KITTI行人跟踪排行榜上前20种方法的结果（截至撰写本文时）：
在这里插入图片描述

排名（红色数字）按照整体HOTA得分排序。但现在我们可以单独看到方法在检测（x轴）和关联（y轴）的每个维度上的表现，背景中的曲线显示了随着检测和关联得分的提高，整体HOTA得分是如何增加的。

排名前三的跟踪器具有非常相似的整体HOTA得分（46.3%，45.9%和45.7%），但从这个图中我们可以看到它们在哪些方面有明显的差异。跟踪器1在关联方面表现最佳，而跟踪器2在检测方面表现更好，跟踪器3则介于两者之间。如果你想为特定应用选择一个跟踪器，你现在可以决定关联或检测哪个对你的应用更重要，并相应地选择最合适的跟踪器。实际上，这三个跟踪器都位于帕累托最优前沿（红色虚线），这意味着在关联和检测准确性之间的某种程度的权衡下，每个都是最佳选择。有了HOTA指标，排行榜顶部不再只有一个最佳跟踪器，而是有许多最佳跟踪器，它们在Pareto fronts最优前沿上有不同的权衡（感谢Jack Valmadre和Alex Bewley提出绘制Pareto fronts的想法）。

如果跟踪器2的作者希望改进他的跟踪器，这些结果现在表明，他可以通过研究跟踪器1如何进行关联来改进它，而相反，跟踪器1的作者可能想研究跟踪器2（或更好的跟踪器4）如何进行检测。

我们可以进一步比较检测和关联。由于每个都是使用IoU公式设计的，它们自然可以分解为只衡量召回率的一个组成部分和只衡量精确度的一个组成部分。我们可以进行这种分解并绘制结果，以获得对跟踪结果的更深入洞察：

在这里插入图片描述

上述图表中的跟踪器编号仍然按照整体HOTA得分排序，因此相同的编号指的是同一个跟踪器。检测召回率（DetRe）衡量跟踪器找到所有真实检测的能力，而检测精确度（DetPr）衡量跟踪器避免预测不存在的额外检测的能力。从上面的第一个图中，我们可以看到跟踪器1和跟踪器3的整体检测准确度相似，但跟踪器3通常找到更多真实对象（更高的召回率），同时也预测了更多错误的检测（较低的精确度）。

召回率和精确度通常用于评估检测，但现在有了HOTA指标，我们可以将这些概念扩展到关联的测量上。关联召回率（AssRe）衡量跟踪器避免将同一对象分割为多个较短轨迹的能力。相反，关联精确度（AssPr）衡量轨迹避免将多个对象合并为单个轨迹的能力。例如，跟踪器15比跟踪器20更有可能将轨迹分割为多个较小的部分，但它在不将轨迹合并在一起方面表现更好。与检测的精确度和召回率一样，在设计跟踪器时，关联的精确度和召回率之间存在自然的权衡。

HOTA指标允许对跟踪器在这四个维度（缺失检测、额外检测、分割轨迹和合并轨迹）上进行有意义的分析和比较，同时将所有这些得分有意义地结合为一个总体得分，用于排名跟踪器。

最后，HOTA还允许分析定位准确度：
在这里插入图片描述

在上面的第一个图中，我们将HOTA(0)（在最低的alpha阈值的HOTA，因此不包括定位准确度的影响，在本例中为alpha=0.05）与定位准确度LocA(0)（在同一阈值的LocA）进行比较。我们可以看到，即使允许检测之间仅有少量重叠也能匹配，在HOTA(0)中，跟踪器3的整体检测+关联表现略优于跟踪器1，但这些匹配检测的定位较差，因此当我们通过计算一系列定位阈值来计算最终HOTA得分时，跟踪器1的得分更高。这表明HOTA能够分解并结合跟踪器行为，不仅针对检测和关联，还针对定位。

在第二个图中，我们比较了前5名跟踪器在不同alpha阈值范围内的HOTA得分。所有跟踪器在增加alpha阈值时表现都变差，但它们变差的速率很有趣，对比较跟踪器之间的行为很有用。

第三部分：HOTA与其他跟踪指标的比较

以前，用于评估多目标跟踪的主要指标有三个，分别是MOTA、IDF1和Track mAP。我们这里不详细介绍每一个，而是通过一个简单的示例来突出HOTA和以前的指标之间的差异：
在这里插入图片描述

在这个示例中，我们有一个单一的真实对象，在100帧视频的所有帧中都存在。然后我们有三个不同的跟踪器（A、B和C），它们的检测准确度逐渐增加，而关联准确度逐渐减少。在这个示例中，每个预测的检测都是TP（例如，与真实目标匹配）。

A、B和C中哪个跟踪器更好？这不是一个明确定义的问题，因为每个跟踪器都非常不同，有些在检测方面表现更好，有些在关联方面表现更好，所以这取决于哪个对你的应用更重要。由于检测和关联通常都非常重要，HOTA被设计为在计算总体得分时对它们进行均等加权。这可以在上面的示例中看到。检测得分（DetA）增加，而关联得分（AssA）减少，使得这三个的组合HOTA得分保持不变。

相比之下，可以看出MOTA得分严重偏向于以牺牲忽视关联为代价衡量检测。相反，IDF1得分严重偏向于以牺牲忽视检测为代价衡量关联。HOTA在这两个极端之间找到了完美的平衡，通过DetA和AssA子得分分别加权检测和关联，同时允许对每个组成部分单独进行分析。

最后，Track mAP指标是我们示例中所有指标中信息量最少的，因为它要求预测的轨迹与真实轨迹有超过50%的重叠才算数。因此，我们示例中的所有三个跟踪器都有Track mAP得分为0，好像根本没有运行跟踪器一样。

总结

在这篇简短的博客文章中，我们介绍了HOTA指标，这是一组用于评估多目标跟踪的新指标。我们介绍了如何将检测、关联和定位的三个独立IoU得分组合计算HOTA。我们看到了如何使用不同的HOTA子指标沿这些不同维度评估和分析跟踪器，以及如何将每个指标分解为召回率和精确度组成部分进行更细粒度的分析。最后，我们简要地看到了HOTA指标与以前用于多目标跟踪评估的其他指标的比较，并强调了使用HOTA通常更可取的一些原因。

有关HOTA的更多细节，请查阅2020年IJCV论文（特别是关于不同指标之间的详细比较和分析）和GitHub上的指标代码。这些代码可用于使用HOTA评估您自己的跟踪器，同时还提供本文中的所有分析和图表。还有其他指标的代码，方便进行比较，并且很容易添加新的基准和新的指标。HOTA指标目前正在推广到多个不同的跟踪基准中，请查看GitHub的readme文件以获取更新。

转载自：https://jonathonluiten.medium.com/how-to-evaluate-tracking-with-the-hota-metrics-754036d183e1