用于多目标检测的自监督学习（SELF-SUPER VISED LEARNING FOR MULTIPLE OBJECTDETECTION）

知新_ROL

已于 2023-10-22 12:20:54 修改

阅读量438

点赞数

分类专栏：用于物体识别和跟踪最新领域国外优秀博士论文解读文章标签：目标检测学习人工智能

于 2023-10-14 19:19:05 首次发布

本文链接：https://blog.csdn.net/weixin_43608857/article/details/133819330

版权

用于物体识别和跟踪最新领域国外优秀博士论文解读专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在本章中，我们提出了一种新的自监督学习（SSL）技术，以从头顶图像中提供关于实例分割不确定性的模型信息。我们的SSL方法通过使用测试时数据增强和基于回归的旋转不变伪标签细化技术来改进对象检测。我们的伪标签生成方法提供多个经过几何变换的图像作为卷积神经网（CNN）的输入，对网络生成的增强检测进行回归以减少定位误差，然后使用均值偏移算法对其进行聚类。自监督检测器模型可以在单个相机跟踪算法中使用，以生成目标的时间标识符。

3.1简介

自动视频监控需要检测、跟踪和识别场景中感兴趣的对象。在拥挤的场景中进行精确的监控是最具挑战性的计算机视觉应用之一。为了解决机场检查站安全领域的视觉监控问题，东北大学国土安全部ALERT（爆炸相关威胁的意识和定位）卓越中心启动了CLASP（关联行李和特定乘客）项目。这项举措旨在帮助美国运输安全管理局（TSA）发现安全事件，如物品和废弃袋子被盗。

目前在机场检查站检测和跟踪乘客和行李的方法将每个摄像头视野内的图像区域划分为预期乘客行为的感兴趣区域（例如，乘客他们的物品在滚筒输送机附近）[169170]。虽然这些方法在感兴趣的个别地区是有效的，但它们无法在整个检查站检测和跟踪乘客及其物品。此外，由于使用非常规相机视角获得的大规模数据集不可用，最新的检测算法[6171,7172]无法在逼真的头顶相机场景中检测多个对象。

使用人类注释标签微调预先训练的模型是计算机视觉方法中的一种常见方法。然而，这种策略阻碍了最先进算法在从现有公开数据集中不常见的视角获得图像的场景中的适用性。

机场检查站使用的视频监控系统具有巨大的可变性，需要对特定部署的模型进行微调，在某些情况下，甚至需要对特定摄像机进行调整。为了克服这一挑战，我们利用了这样一个事实，即在大规模数据集上预先训练的模型可以在其初始预测的基础上使用SSL策略来适应新的场景。我们提出的SSL框架通过自动生成伪标签来更新模型，避免了繁琐而昂贵的人工注释过程。

为了生成伪标签，我们使用均值偏移算法[173]对从几何变换的图像中获得的多个检测进行聚类。每个聚类对应于在几个增强输入图像上以不同方向观察到的一个对象的检测。使用具有相应边界框、分割掩码和置信度分数的聚类模式来更新模型。

因此，我们的模型从旋转不变的伪标签中学习，并可以与检测跟踪算法[23]集成，以从头顶角度生成准确的目标轨迹。

我们的SSL算法受到[39，103，20，104，119]中描述的方法的启发。然而，与[39]不同的是，与其采用多任务策略来指，在学习过程中，我们采用了一种在精神上类似于[103]中提出的基于等变变换的自一致性方法的多推理方法。我们的方法与[103]的不同之处在于，它不是使用多个模型预测的不确定性来选择图像块进行额外训练，而是将多个推断聚合为用于细化模型的精确伪标签。我们的方法与无监督模型自适应[20]和知识提取方法[91]有很大不同，因为我们只使用自动生成的标签，并在模型更新过程中完全避免人工注释。

在学习过程中，我们采用了一种在精神上类似于[103]中提出的基于等变变换的自一致性方法的多推理方法。我们的方法与[103]的不同之处在于，它不是使用多个模型预测的不确定性来选择图像块进行额外训练，而是将多个推断聚合为用于细化模型的精确伪标签。我们的方法与无监督模型自适应[20]和知识提取方法[91]有很大不同，因为我们只使用自动生成的标签，并在模型更新过程中完全避免人工注释。

贡献：

本章的主要贡献是：

•一种新颖的自监督对象检测算法，该算法基于实例分割的不确定性生成伪标签。

•一种新的基于数据扩充和回归的聚类机制，大大提高了用于自我监督训练的伪标签的质量。

•我们在真实的机场检查站场景中使用多个头顶摄像头收集的数据集上对我们的方法进行了广泛的评估。

•我们的SSL模型和相应的源代码可在https://github.com/siddiqueem/SCT_MCTA上获得。

3.2相关工作

使用相机网络的多目标跟踪是一个活跃的研究主题，有几个潜在的应用。大多数关于相机网络的工作都集中在问题的多相机方面，而没有考虑与相机视角相关的挑战。尽管通用对象跟踪算法可以用于监控系统（例如[178124179]），但当对象类别已知时，基于专用检测器的跟踪器更准确，不太容易出现模型漂移[180181]。这一观察结果导致了专门跟踪人类的各种多目标跟踪算法的发展[182183184、185、186、187、36、11、37、157、155]或车辆[156、154、106、188]。然而，在许多场景中，需要跟踪已知类别的附加对象。在这些情况下，需要更灵活的检测算法，但现代物体检测模型的有效性在很大程度上取决于训练数据集的特性[171，6，7]

先前的工作已经使用SSL技术来改进视觉特征学习[13，21，90]，减少了对训练骨干模型的人工注释的依赖。然而，将知识从预先培训的骨干转移到下游任务是一个远未被探索的话题。与我们提出的方法不同，用于检测[39，20]和语义分割[103]的SSL技术依赖于注释来初始化模型，然后才能进行迭代学习

图3.1：拟议的SSL框架。增强建议生成阶段使用未标记输入图像的多个旋转版本来从实例分割模型生成增强检测，然后将这些预测重新映射到它们的原始坐标中。聚类算法利用模型的回归能力，使用增强预测作为区域建议来减少定位误差。然后使用回归的聚类模式来生成增强的伪标签以更新模型。

在训练过程中不可用的场景中，数据增强是提高细胞神经网络稳健性的有效机制[91189]，但到目前为止，很少关注将网络对增强样本的响应组合起来的方法。在多目标跟踪应用程序中，映射多个检测到公共坐标系可以被解释为相机观察到的区域的占用概率[100]。尽管可以使用聚类技术将这种分布的模式映射到唯一的目标检测，但边界框对齐错误对生成SSL的高质量伪标签提出了挑战。因此，我们提出了一种测试时间回归技术，该技术利用实例分割信息来生成伪标签。

3.3拟定模型

我们的系统由两个主要组件组成：

i）使用SSL训练的检测算法和

ii）通过检测机制进行多摄像机跟踪。单摄像头跟踪算法使用SSL检测来生成乘客和行李物品的轨迹。然后，我们使用一种新颖的多摄像头目标轨迹关联算法来唯一识别整个检查站的乘客

3.3.1自我监督学习

我们使用具有ResNet-50主干[190191]的PANet模型[7]作为基线检测器。由于感兴趣的类别是人及其物品，我们使用在COCO数据集[24]上预先训练的模型，该模型包括与这些类别相关的对象类（即人、手提包、背包和手提箱）。由于COCO数据集主要由大致在眼睛水平上捕获的图像组成，因此使用该数据集训练的检测器在俯视图上表现不佳。为了解决这个限制，我们的SSL框架使用旋转不变的伪标签来更新基线模型。如图3.1所示，我们的SSL框架由三个主要步骤组成：

i）扩增区域建议生成，

ii）通过聚类回归生成和细化伪标签，以及

iii）迭代模型更新

Algorithm 1 Augmented Proposals Generation
1: function AugmentedProposals(I(t), r)
2: SC(t) = ∅, Θ = {i · ∆θ}r
i=1
3: for θi ∈ Θ do
4: Ψθi(t) = Rθi(I(t))
5: DCθi(t) = DPANet(Ψθi(t))
6: SCθi(t) = R−θi(DCθi(t))
7: SC(t) = SC(t) ∪ SCθi(t)
8: end for
9: return SC(t)
10: end function

3.3.1.1生成增强提案

我们的数据扩充方法，在Alg。1，使用PANet模型来检测和分割感兴趣对象的多个实例。在SSL训练的第一次迭代过程中，我们只保留个人、手提包、背包和手提箱类的预训练模型的输出。人员等级对应于乘客，手提包、背包和手提箱物品的检测被视为行李物品。在SSL训练的后续迭代中，我们修改模型以仅生成对象类别C∈{pax，bag}，其中pax对应于乘客和行李到行李项目。设DC（t）是在时间t对图像I（t）的检测的集合。也就是说，DC（t）＝{d1，…，dnCt}，其中dj∈R5是第j个对象的检测，nCt是帧I（t）中C类对象的数量。每个检测dj由目标的边界框的坐标和维度bCj∈R4以及其检测置信度得分sj∈[0，1]组成。

我们注意到，当以更常见的角度（例如，直立）观察物体时，探测器的性能更好。因此，为了减少俯视透视的负面影响，我们生成输入图像Ψθi（t）=Rθi（i（t））（Alg.1中的第4行）的多个旋转副本，其中Rθi是旋转算子，它将图像旋转角度θi。旋转角度θi在0和2π，间隔∆θ=？2πr？，即θi=∆θ，2π，其中r决定旋转分辨率。在每个旋转步骤，我们使用对函数DPANet（·）的单个调用来计算两个类C∈{pax，bag}的检测集DCθi（t）（第5行）。然后，我们通过将反向旋转应用于DCθi（t）中的每个检测，将得到的检测重新映射到原始图像的坐标系（第6行）。为了避免旋转轴对齐的边界框带来的定位误差，我们将旋转操作应用于PANet生成的二进制分割掩码，并使用旋转的掩码计算相应的边界框。在Alg。1，集合SC（t）=Şri=1SCθi（t）包含在所有旋转角θi的检测。图3.2说明了在两个旋转角度下的检测以及将在20个不同方向上的检测映射回原始坐标系的结果。

图3.2：我们的数据扩充方法的可视化。第一列和第二列显示θ=0时的分割掩码和检测◦ θ=186◦, 分别地第三列显示了原始图像上集合SC中的重映射检测（使用Alg.1），其中来自Alg的最佳检测（蓝色）。2.

2π，间隔∆θ=2π/r，即i，e,θi=∆θ，2π，其中r决定旋转分辨率。在每个旋转步骤，我们使用对函数DPANet（·）的单个调用来计算两个类C∈{pax，bag}的检测集DCθi（t）（第5行）。然后，我们通过将反向旋转应用于DCθi（t）中的每个检测，将得到的检测重新映射到原始图像的坐标系（第6行）。为了避免旋转轴对齐的边界框带来的定位误差，我们将旋转操作应用于PANet生成的二进制分割掩码，并使用旋转的掩码计算相应的边界框。在Alg。1，集合SC（t）=Şri=1SCθi（t）包含在所有旋转角θi的检测。图3.2说明了在两个旋转角度下的检测以及将在20个不同方向上的检测映射回原始坐标系的结果。

Algorithm 2 Cluster Regression
1: function ClusterRegression(SC(t))
2: DC(t) = ∅
3: Refine the augmented detections using SC(t) as region proposals for the DPANet
model
4: OC(t) = mean − shift(SC(t))
5: for Q ∈ OC(t) do
6: Compute the cluster score ¯ηQ using Eq. 3.2   使用等式3.2计算聚类得分ηQ
7: if ¯ηQ ≥ λ then
8: d = argmax
di∈Q (si)
9: DC(t) = DC(t) ∪ {d}
10: end if
11: end for
12: return DC(t)
13: end function
-------------------
算法2聚类回归
1：函数聚类回归（SC（t））
2:DC（t）=∅
3：使用SC（t作用

图3.3：测试时的回归增强了边界框（中间）和集群模式（右侧），以生成SSL训练的伪标签

3.3.1.2聚类回归

Alg。2总结了我们将增强检测的集合SC（t）组合成精细目标检测的集合DC（t）的方法。为了减少分割错误导致的边界框之间的差异，我们利用预先训练的模型以回归增强检测的集合SC（t）。如图3.1所示，我们的聚类回归方法使用具有增强检测SC（t）的主干特征[192]作为区域建议（而不是使用区域建议网络[1]生成的建议）到下游盒和掩码头。为了避免忽略可能对应于相关区域建议的低置信度检测，我们不将非最大值抑制应用于模型预测。图图3.3显示，聚类回归显著提高了使用增强输入生成的边界框的精度，因此相应的分割掩码也更准确。

图3.4：在我们的评估数据集的一帧中，乘客（左）和行李（右）的占用概率。相应的检测也如图所示。

群集模式检测:

Algorithm 3 Pseudo-Label Generation
1: function PseudoLabels(DC(t), r)
2: PC(t) = ∅, Θ = {i · ∆θ}r
i=1
3: for dj ∈ DC(t) do
4: for θi ∈ Θ do
5: Generate the augmented region proposals
di,j = Rθi(dj)
6: end for
7: Generate the pseudo-label (ˆbi, ˆmi, αi) using the
region proposals di,j
8: PC(t) = PC(t) ∪
 n
(ˆbi, ˆmi, αi)
o
9: end for
10: return PC(t)
11: end function

如图3.4所示，检测及其相应的置信度得分形成了图像占用概率的非参数分布。我们使用均值偏移算法[100]来识别该分布的模式以及与共同目标相对应的聚类检测。我们使用带宽为hC的多元高斯核[100]，根据它们的边界框bj对检测进行聚类。我们使用对象边界框的样本方差

以确定内核带宽。，

其中bCj是bCj的样本均值，diag（·）是协方差矩阵的对角线。bj的元素之间的相关性可以忽略不计，并且可以安全地忽略。对均值偏移算法的每次调用（算法2中的第4行）产生一组聚类OC（t），其元素是分配给同一目标的检测集。

我们分别考虑对乘客和行李物品的检测。因此，需要对均值偏移过程进行两次单独的调用来生成集合Opax（t）和Obag（t）。聚类Q∈OC（t）的置信度得分ηQ定义为该聚类内检测的总得分与增强过程中考虑的旋转角度数量之间的比率，即。

Alg。2表明，我们丢弃得分低于阈值λ的聚类，以去除假阳性检测。

3.3.1.3自监督模型更新

Alg。3显示了生成用于更新模型的伪标签的过程。由于我们的目标是使用从多个角度生成的标签来训练模型，因此我们旋转原始图像和相应的预测模式，以在每个方向生成伪标签建议。也就是说，对于每个模式dj∈DC（t），我们通过使用旋转的簇模式di，j=Rθi（dj），i=1，r作为分割头的区域建议，使用第3.3.1.2节中描述的相同方法。然后，我们找到对应于Gui mj的边界框Gui bj。由此产生的伪标签的置信度（Loαj）由其相应的聚类得分给出。因此，伪标签集PC（t）=n（Dir bj，Dir mj，Dirαj）|dj∈DC（t）o包含精确的注释，即使对于模型在某些方向上无法检测到的目标也是如此。

旋转不变损失: 为了以稳健有效的方式使用旋转不变的伪标签更新模型，我们提出了一种新的不确定性感知的多任务损失函数，由

其中~c、~bj和~mj是由网络预测的对象类、边界框和分割掩码；Lc、Lb和Lm是[1]中定义的分类和边界框回归损失以及[6]中描述的逐像素二进制交叉熵掩码损失；Lrpn是[1]中的区域建议网络损失。在等式3.3中，实例水头损失通过其相应的聚类得分进行加权。该策略确保了可能对应于不正确的伪标签的具有低聚类分数的实例对网络参数的更新几乎没有影响。作为Alg。

4表示，在每次SSL迭代中使用来自上一次迭代的更新模型生成一组新的伪标签。

Algorithm 4 Self-Supervised Detection Model Update
Input: Image sequence I(t), t = 1, . . . , T
Output: Updated detection model DPANet
1: repeat
2: for t = 1, . . . , T do
3: SC(t) = AugmentedProposals(I(t))
4: DC(t) = ClusterRegression(SC(t))
5: PC(t) = PseudoLabels(DC(t))
6: end for
7: Fine-tune the DPANet model using the pseudo-labels ?PC(t)?T
t=1 according to
the loss function in Eq. 3.3
8: until Convergence criterion is me


算法4自监督检测模型更新输入：图像序列I（t），t=1。T输出：更新的检测模型DPANet 
1：重复
2：对于T=1。T do 
3:SC（T）=增强建议（I（T））
4:DC（T）=ClusterRegression（SC（T？PC（t）？根据等式3.3 8中的损失函数，T T=1：直到收敛标准为me

3.4结果和讨论

在本节中，我们首先简要讨论用于评估算法的数据集。然后，我们从乘客和行李检测的角度对拟议的SSL方法进行了评估。我们的评估基于多目标检测（MOD）和跟踪（MOT）指标[69193]。

3.4.1.数据集

这项工作中使用的视频数据集是在东北大学Kostas研究所（KRI）视频分析实验室记录的，如第2.6节所述。如图3.5所示，实验室被配置为模拟真实的机场检查站。它配备了14个标准IP监控摄像头（Bosch NDN-832-V03P），分辨率为1920×1080，焦距在3毫米至9毫米之间。这些摄像头安装在距离地板约三米的地方，视野部分重叠

图3.5：Kostas研究所模拟机场检查站的文件检查站和剥离区

几个演员带着行李穿过检查站，同时进行在真实机场中常见的各种活动。1这些活动包括只有少数乘客按顺序通过检查站的简单场景，以及多个乘客以更不稳定的方式脱下和取回物品的拥挤场景。我们收集了两个独立的视频数据集：CLASP1，它包括相对简单的场景，CLASP2，它更复杂。图3.6显示了来自两个数据集的视频样本帧。如前所述;

1数据集可应要求提供，网址：alert-coe@northeastern.edu.东北大学的机构审查委员会（IRB）和国土安全部科技局下属的合规保证计划办公室（CAPO）已经审查了参考的人类受试者研究方案和相关研究文件。通过审查，未发现与本方案中人类受试者使用相关的合规性问题或担忧，并且已满足国土安全部对人类受试物研究方案审查的政策要求

图3.6：在模拟机场检查站收集的数据集的样本图像（表3.1中的左：CLAP2和右：CLAP1）。图像显示了剥离区域（右：相机9）和物品检索区域（左：相机11）

表3.1：用于评估我们算法的数据集。对于每个视频序列，该表显示了乘客数量、行李项目、视频帧、注释帧以及注释边界框的总数。

在第2.6.2节中，在实验室的14个摄像头中，大多数乘客互动发生在摄像头9和11上。摄像机9监视剥离区域，摄像机11观察行李取回区域。乘客将自己的物品放入垃圾箱或直接放在剥离区的传送带上。然后，在通过金属探测器后，他们在行李提取区收集自己的物品。

图3.7:SSL培训期间人员（左）和行李（右）等级的MODA测量。

表3.1显示了用于评估SSL算法的CLASP数据集的规范。我们使用唯一标识的轴对齐边界框手动注释视频。给定数据集中可用的大量视频帧，视频序列的注释速率在每秒0.01到10帧（fps）之间变化。我们将每个数据集随机划分为包含80%视频帧的训练集和剩余20%的测试集。为了进行公平的比较，监督学习（SL）和SSL模型仅使用训练集中的帧进行训练，但SSL模型是完全自我监督的，不使用任何手动注释。

3.4.2自监督学习检测性能

在训练过程中，我们将网络权重冻结到区域建议网络层，以便在下游任务中有效地使用预先训练的骨干特征。我们使用5e−3的初始学习率，每个图像的小批量大小N=256，r=20个不同的方向，以及聚类置信阈值λ=0.1。

与基线模型类似，我们使用动量为0.9的随机梯度下降，权重衰减为1e−4。在每次SSL迭代中，我们对模型进行微调，使其达到20k 迭代，每5k次迭代将学习率降低10倍。在我们的评估中，我们对所有模型使用0.5的IoU阈值和非最大抑制阈值ηnms=0.3。区域建议生成的检测阈值为ηdet=0.5。

图3.8：人员（左）和行李（右）检测的精确召回曲线。图例显示了模型的平均精度

图3.7显示了我们模型的多目标检测精度（MODA）作为SSL迭代次数的函数。为了说明聚类置信度得分的影响，我们还评估了一个模型，在该模型中，样本不按其得分进行加权（SSL wo-α）。相反，该模型使用硬阈值λ≤0.4来丢弃训练期间的噪声检测。该图还显示了用于生成伪标签的多重推断（MI）策略的性能，它反映了SSL训练前伪标签的质量。也就是说，在MI模型中，伪标签本身被用作模型预测。如图所示，SSL模型逐渐接近MI策略的性能。

聚类置信度的结合不仅提高了模型的收敛速度，而且还带来了显著的性能提升，尤其是对于行李物品。

图3.9：显示CLAS11（顶行）和CLAS12（底行）数据集中使用SSL模型进行行李检测失败案例的示例结果。品红色箭头表示未标注的行李状物体检测（假阳性），红色箭头表示模型未检测到的标注行李项目（假阴性），绿色边界框表示乘客检测，红色边界框表示两类的手动标注

图3.8显示了使用四种检测器模型进行乘客和行李检测的精度召回曲线：预训练的PANet（基线）、使用SL训练的PANet、SSL wo-α和SSL。尽管SSL模型是在没有手动注释的情况下训练的，但它们的性能与乘客的SL模型不相上下。对于行李项目，基线模型的最大平均精度不到SSL模型性能的一半。如图3.9所示，SL和SSL型号之间的性能差异是由于两个主要问题造成的：i）放置在安全箱中的行李和某些服装/物品的外观相似性，以及ii）在放置在传送带上之前只能部分观察到的行李物品

图3.10：使用（a）基线、（b）SSL和（c）SL模型对CLAP2数据集的定性检测结果（SL模型仅预测边界框）

表3.2展示了将聚类不确定性纳入SSL损失函数（第α列）和所提出的聚类回归技术（第reg.列）的好处。同时纳入聚类不确定性和回归的方法等效于图3.7和3.8中确定为SSL的方法，而不包括聚类置信度的方法对应于SSL wo-α。表中的结果对应于在执行最佳SSL迭代时使图3.8中曲线的F1分数最大化的点。表3.2和本节剩余部分中表现最好的方法用黑体突出显示，第二好的方法用下划线突出显示，根据MODA/MOTA结果，平局被打破。

与基线模型相比，我们的SSL算法显著提高了乘客检测的召回率（Rcll）和精确度（Prcn），这是真阳性（TP）、假阳性（FP）和假阴性（FN）检测改进的结果。聚类置信度分数显著降低了低置信度伪标签的贡献，尤其是对于行李物品，导致真阳性数量显著增加。聚类回归校正了由较差的分割结果产生的不准确的边界框引起的伪标签错误。因此，当合并聚类回归时，这两个类的误报率的降低甚至更加明显。总体而言，我们的SSL框架显示，与基线模型相比，乘客和行李物品的MODA得分分别提高了46%和144%。

图3.11：数据集A上摄像头9（左）和11（右）的乘客检测精度召回曲线。虚线显示YOLO（蓝色）、SSD（黑色）和MRCNN（绿色）的结果。实线显示了通过将相应的检测器结合到Alg中而获得的改进的结果。1和2。

图3.10显示了所考虑的所有模型的定性结果。

由于SSL模型是使用手动生成的边界框进行训练的，因此无法预测分割遮罩。我们的SSL模型不仅提高了预测边界框的准确性，而且生成了改进的分割掩码，因为它们是使用自动生成的实例分割伪标签进行训练的。

3.5用于推断的测试时间数据增强

本章的贡献主要与基于数据增强的伪标签生成和使用旋转不变损失的预训练模型的迭代训练有关。然而，测试时间数据扩充已经在单阶段[54194]和多阶段[6]检测模型推断中得到了利用。在本节中，将我们提出的数据增强技术（算法1和2）在推理过程中的优势与最先进的物体检测器在高架摄像机场景中的性能进行了比较。

乘客检测：图3.11显示了使用三个基线检测器（虚线）进行乘客检测的精确度-召回曲线，以及

使用我们提出的多重推理方法（实线）扩展了检测器。所有结果都基于0.4的IoU阈值，这允许正确检测乘客，尽管随着乘客改变方向或移动手臂与行李物品互动，边界框大小存在很大变化。

在我们的评估中，我们对三个网络使用相同的检测和非最大抑制阈值ηdet=0.5和ηnms=0.1。用于数据扩充的旋转角度的数量为n＝20。在用我们提出的方法增强的方法中，由于基于YOLO和SSD的检测器的召回值较低，我们将聚类置信度得分阈值设置为λ=0.1，而对于基于MRNN的方法，我们使用λ=0.5。我们已经观察到，通过根据所考虑的数据集调整λ的值，可以进一步提高性能，但我们避免使用数据集特定的值来证明我们方法的泛化能力。为了进行公平的比较，没有一种评估中的方法是使用我们模拟检查点的数据进行微调的。如前所述，尽管微调基线模型会全面提高性能，但它也可能限制我们的方法在现实世界场景中的适用性。如图所示，我们的算法增加了所有三个检测器的曲线下面积，导致MRCNN的最大值为98%。

如表3.3所示，我们的检测方法（标有a*）大大提高了三个基线检测器的性能。在考虑的大多数场景中，我们的算法显著增加了真阳性（TP）检测，同时减少了假阳性（FP）和假阴性（FN）检测，这也显著提高了查全率（Rcll）、精确度（Prcn）和MODA结果。同样，表中的结果对应于图3.11中单个算法的F1分数最大化的点。因此，在某些情况下，我们观察到召回值的大幅增加是以相应精度值的一些下降为代价的。

如图3.11所示，可以选择一个操作点，其中两个指标都高于相应的基线方法获得的指标，但在考虑组合指标时，这会导致性能的整体下降。总体而言，我们的算法显示，相对于YOLO、SSD和MRCNN，MODA得分分别提高了17%、103%和23%

表3.3：数据集A上的乘客检测评估。*表示用我们提出的算法增强的方法

高召回率、精度和MODA值表明，我们的方法在这些视频序列中正确检测到了大多数乘客。尽管几何变换略微增加了由于在场景边缘附近检测到乘客身体部位而导致的误报数量，但通过保留归一化概率得分高于λ的聚类，我们可以忽略其中的大多数（见图3.2）。如第6章所示，Trackor[23]或MHT[195]有效地处理了剩余的少数误报。

行李检测：图3.12显示了IoU阈值为0.4时行李项目的精度召回曲线。在这些结果中，我们使用ηdet=0.5作为MRCNN

YOLO和SSD的ηdet=0.25，因为这些网络在行李项目的检测中显示出显著较低的置信水平。同样，对于所有三个网络，ηnms=0.1，旋转角度的数量为n=20。如图所示，仅MRNN的最大平均精度为56%，几乎比使用我们的方法获得的精度低40%。使用YOLO或SSD进行行李检测的平均精度小于0.1。尽管我们的方法大大提高了这两种方法的平均精度，但它们的性能对于任何实际应用来说仍然不令人满意。因此，我们在评估以下小节中讨论的跟踪和关联算法时使用了MRNN

表3.4：数据集A上的行李检测评估。*表示用我们提出的算法增强的方法。

表3.4中列出的其他指标进一步强调，对于行李物品，单独的基线方法无法检测到大多数目标。我们提出的方法将YOLO和SSD的MODA提高了一倍以上。对于MRCNN，我们观察到相机9的MODA评分相对提高了61.8%，相机11的MODA得分相对提高了54.5%。MRCNN的FP增加主要是由于检测相关的部分观察到的物品，如小钱包、衣服和箱子，作为未在地面实况数据集3.9中注释的行李物品。

图3.12：数据集A上摄像头9（左）和11（右）的行李检测精度召回曲线。虚线显示YOLO（蓝色）、SSD（黑色）和MRCNN（紫色）的结果。实线显示了通过将相应的检测器结合到Alg中而获得的改进的结果。1和2。

3.6自我监督到半监督

本节介绍了我们的SSL检测器在CLAS1和CLAS2数据集中对单个相机的性能的细分。它还评估了在半监督方法中使用标记数据时的性能。

自我监督学习。图3.13显示了我们的SSL检测模型在CLAS1和CLAS2数据集中对单个相机视图的性能的详细分解。高召回率、精度和MODA值表明，我们的SSL方法在这些视频序列中正确检测到大多数乘客。对于两个数据集中的摄像机11，乘客检测的平均精度（AP）略高。造成这种性能差异的主要因素是，在摄像机9中，乘客在大部分时间只能部分看到，而摄像机11能更好地观察乘客站在传送带旁边的区域。另一方面，这也有助于降低行李检测性能在照相机11中。也就是说，在摄像机11中，部分观察到的乘客携带的行李物品（见图3.9）比摄像机9中常见得多。与乘客检测一样，我们在特定于摄像头的性能比较中观察到类似的行李检测改进。通过使用CLAS1和CLAS12数据集中可用的附加未标记视频帧来训练SSL模型，可以进一步提高这种性能。

图3.13：CLAS1（CL1）和CLAS12（CL2）数据集的摄像头9和11的乘客和行李检测性能。这里，P代表乘客，B代表行李

半监督学习：如表3.2所示，我们的SSL算法的性能受到基线模型初始精度的限制。因此，我们将我们的方法扩展到半监督方法，在启动SSL训练之前，我们使用一定数量的手动注释来初始化我们的模型。对于标记的帧，我们采用与生成增强标签。图3.14显示，使用10%的手动标签训练SSL模型的性能与SL模型相当，优于最先进的半SL技术SoftTeacher[14]。当使用少量注释时，我们的方法特别有效。例如，仅使用1%的手动标签，我们的Semi-SL方法比SoftTeacher高104%，在行李项目方面仅落后SL方法1.6%（表3.5）。此外，当我们在训练期间使用所有手动注释时，我们观察到与SL方法相比，MODA提高了5.7%。

表3.5：CLAS1和CLAS2测试装置的乘客和行李检测评估措施

3.7参数敏感性和计算复杂度分析

本节评估了额外数据增强策略的性能影响、用于数据增强的旋转角度的数量以及SSL检测器在训练和推理过程中的计算复杂性

额外的数据增强策略。我们研究了SSL训练过程中其他数据增强策略的影响，包括颜色抖动和运动模糊以及多次旋转。对于颜色抖动，我们通过从范围[0，maxjit]均匀采样的因子来增加/减少图像亮度、对比度、饱和度和色调，其中maxjit为0.4表示亮度，0.5表示对比度，0.2表示饱和度，0.05表示色调。为了模拟运动模糊，我们使用高斯模糊，其内核大小从集合{5，…，9}中均匀采样，标准偏差从区间[0.1，5]中采样。我们观察到，在伪标签增强中应用颜色抖动和运动模糊可以进一步提高乘客和行李物品的MODA评分，分别提高2.9%和4.8%。为了进行公平的比较，我们减少了用于增强的旋转角度的数量，以便在两种情况下增强图像的总数保持不变。表3.7显示了原始旋转次数（r=20）将进一步提高性能增益。

图3.14：与SoftTeacher（ST）[14]相比，使用我们提出的SSL方法的半监督扩展的CLAP2上的半SL模型性能。这里，P和B代表乘客和行李类别。SSL模型不使用标记数据，SL模型使用100%的样本进行训练。

旋转分辨率的影响。表3.7显示了旋转分辨率r对伪标签生成的影响。一次r=20的SSL迭代可将乘客的MODA得分提高3.1%，将行李物品的MODA分数提高5.6%。

单个帧的推理时间随着旋转次数线性增加，有助于更长的SSL训练迭代。如果训练时间是一个问题，r=10提供了合理的速度与性能权衡。我们对所有SSL模型使用r＝20来展示我们框架的潜在性能。如表3.7所示，进一步增加r值可能会带来较小的额外性能提升。

表3.6：SSL迭代中额外数据增强策略的性能影响。

表3.7：SSL迭代中使用的旋转角度数量对性能的影响。

自我监督学习中的计算复杂性。在本节中，我们分析了SSL策略的理论计算复杂性，并测量了算法每一步的计算时间和内存利用率。我们所有的实验都是在配备了两个RTX-2090Ti的工作站上进行的

GPU和Intelr Xeonr Silver 4112 CPU@2.6GHz。我们方法的计算复杂度随着伪标签生成步骤中用于增强的旋转角度的数量线性增加。也就是说，对于计算复杂度为θ（f（I（t））的基线检测算法，我们的方法的复杂度为Θ（r·f（I）），其中r是旋转角度的数量。例如，对于r＝20，运行时间是不增加的单个迭代的20倍。然而，只要硬件资源支持多个帧的同时处理，这些操作是可并行的。使用我们的未优化实现，对于模型训练和伪标签生成，完成一次SSL迭代的总时间约为6小时。然而，我们观察到硬件资源严重未得到充分利用，这表明总体计算时间有很大的减少空间。表3.8显示了所提出的SSL算法的计算时间，采用具有ResNet-50主干的PANet检测器。SCT使用检测器结果和在MOT17上训练的基于ResNet-50的重新识别（Re-ID）模型来重新标记由于短期闭塞而丢失的轨迹。因此，SCT的计算时间和内存利用率与检测器模型的计算时间相似。由于我们是单独处理单个图像，而不是批量处理图像，因此检测器和SCT的推断时间远不是最佳的。初步实验表明，同时处理10张图像的批次可以达到大约6倍。在不超过GPU的存储器容量的情况下减少检测器推断时间。在Re-ID模型中重用来自检测器的主干特征也应该显著减少SCT时间，因为特征生成是跟踪算法中计算要求最高的元素。

表3.8：按检测框架提出的跟踪计算时间。

3.8结论

我们提出了一个多级SSL框架，以克服头顶摄像机视频中对象检测的性能限制，因为可用的训练数据有限。我们的SSL机制将对象检测模型微调到特定的相机视图，而无需手动注释。我们的实验表明，所提出的框架可以在机场检查站场景的多摄像头视图中准确检测乘客和行李物品。我们的框架具有灵活性和可扩展性。它不需要训练数据，在推理时不产生检测计算开销，并且与网络中的摄像机数量无关。

我们的框架还允许无缝集成额外的数据增强策略和可用的手动注释数据。我们的实验表明，这些策略进一步提高了我们的检测器的选择性，尤其是对行李物品。

知新_ROL

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
7
评论
用于多目标检测的自监督学习（SELF-SUPER VISED LEARNING FOR MULTIPLE OBJECTDETECTION）

自动视频监控需要检测、跟踪和识别场景中感兴趣的对象。在拥挤的场景中进行精确的监控是最具挑战性的计算机视觉应用之一。为了解决机场检查站安全领域的视觉监控问题，东北大学国土安全部ALERT（爆炸相关威胁的意识和定位）卓越中心启动了CLASP（关联行李和特定乘客）项目。这项举措旨在帮助美国运输安全管理局（TSA）发现安全事件，如物品和废弃袋子被盗。目前在机场检查站检测和跟踪乘客和行李的方法将每个摄像头视野内的图像区域划分为预期乘客行为的感兴趣区域（例如，乘客他们的物品在滚筒输送机附近）[169170]。
复制链接

扫一扫