全景分割的自监督学习

知新_ROL

已于 2023-10-16 09:36:10 修改

阅读量353

点赞数 1

分类专栏：用于物体识别和跟踪最新领域国外优秀博士论文解读文章标签：学习

于 2023-10-16 08:55:44 首次发布

本文链接：https://blog.csdn.net/weixin_43608857/article/details/133842570

版权

用于物体识别和跟踪最新领域国外优秀博士论文解读专栏收录该内容

5 篇文章 0 订阅

订阅专栏

在本章中，我们将第3章中讨论的SSL方法扩展到语义和全景分割任务。使用手动生成的标签训练的卷积神经网络通常用于语义或实例分割。

在精准农业中，自动化花朵检测方法使用监督模型和后处理技术，随着花朵的外观和数据采集条件的变化，这些技术可能无法始终如一地执行。我们提出了一种自监督学习策略，使用自动生成的伪标签来提高分割模型对不同花卉物种的敏感性。我们采用数据扩充和细化方法来提高模型预测的准确性。然后将增强的语义预测转换为全景伪标签，以迭代训练多任务模型。可以使用现有的后处理方法对自监督模型预测进行细化，以进一步提高其准确性。对多物种果树花朵数据集的评估表明，我们的方法在没有计算成本高昂的后处理步骤的情况下优于最先进的模型，为花朵检测应用提供了新的基线。

4.1引言

计算机视觉算法在农业应用中日益普及。在农业应用中越来越受欢迎。检测和计数花朵是一项重要的作物管理活动，可优化水果产量 [196] 。优化水果产量的一项重要作物管理活动 [196]。自动花开强度估计方法有可能减少大型生产领域的工作量。许多机器视觉Sion 方法来应对估算作物产量的挑战。最近大多数基于深度学习模型的花朵检测和计数方法需要大量人工标注的训练数据才能达到可接受的效果 [25, 197, 198]。虽然弱监督方法 [199] 可以简化卷积神经网络（convolutional neural networks）的虽然弱监督方法[199] 可以简化卷积神经网络（CNN）的训练，但对于适应大规模的虽然弱监督方法 [199] 可以简化卷积神经网络（CNN）的训练，但对于将大规模、预先训练好的模型适应未见物体类别并不特别有效。

数据增强[88,87]是一种事实上的标准技术，用于在训练深度神经网络时减少对手动注释的依赖。但在农业视觉数据中，感兴趣对象的外观和场景条件因田地而异。此外，由于农业生产环境通常需要从移动的车辆中获取图像[25198200]，太阳条件和密集的背景杂波使这项任务在模型泛化方面具有挑战性。因此，我们仍然需要为各种作物生成足够的手动标签，以在具有显著不同外观和背景的物种之间推广预测模型，这些物种可能由语义不同的元素组成。

尽管深度细胞神经网络可以进行相当准确的像素级语义预测[103，25]，但由于花朵、不同成熟阶段的水果和背景物体之间的相似性而导致的误报限制了计算机视觉算法应用于农业自动化任务的潜在机会。实例[7]和全景[9]分割模型可能能够更好地识别单个花朵或花朵簇，从而提高检测性能。

为了解决上述挑战，受[9，18，25]中工作的启发，我们提出了一种新的自监督全景分割方法，该方法利用少量注释进行监督学习（SL），然后将模型调整为具有挑战性的未标记数据集。

贡献：总之，本章的主要贡献是：•一种强大的自我监督花朵分割方法，解决了果园中典型的农业视觉数据挑战。

图4.1：提出的用于多物种花朵分割的自监督学习框架。标记的图像用于初始化花分割的模型。将未标记的输入图像的重叠滑动窗口补丁旋转多次，以从先前初始化的全景分割模型生成增强的语义预测。重新映射步骤将分数图转换到输入坐标系，然后使用标准化预测来生成全景伪标签，使用语义细化过程来更新预先训练的模型。

•一种新的全景伪标签生成技术，用于自动更新包含严重杂波和照明挑战的未标记数据集的模型。

•一种稳健的基于滑动窗口的训练和测试方法，不需要额外的后处理来完善网络预测。

•对多个物种数据集进行了广泛的评估，这些数据集显示出优于最先进技术的通用性能。

•我们的源代码和预训练模型可在https://github.com/siddiquemu/ssl_flower_semantic。

4.2相关工作

在农业自动化中，几种有监督的[2012026]和弱监督的[203]深度学习模型已被用于解决检测花朵[、水果]或整个植物[208]的挑战。这些方法的应用范围从机器人收割到估计水果负荷，以及通过在初花季节计数来优化水果产量。尽管其中一些方法利用数据扩充技术来生成自动标签[209 210 18]，但这些方法都没有解决显著不同测试数据集的模型泛化能力。在对象检测和分割的背景下，最近的方法试图通过以下技术来适应数据分布的变化：

a）监督学习，b）半监督学习，c）自监督学习，以及d）多任务全景分割模型。

监督方法：这些方法通常采用基本的图像变换[7201]或复杂的数据增强技术[30211]来提高模型的泛化能力。除了训练期间的数据扩充外，一些方法在测试时结合了后处理算法[221213]，或者包括更容易微调到新数据集的专用输入/输出单元[241215]。虽然这些技术减少了对不同数据集注释的依赖，但并没有消除这种依赖。模型性能在很大程度上仍然取决于可用的训练数据量。

半监督方法：使用标注数据来引导一个模型，然后使用其预然后利用其判定来微调初始模型（或训练学生模型）。是开发多目标检测方法 [14] 以及实例 [7, 18] 和语义检测方法 [15] 的常用方法。以及实例 [7, 18] 和语义 [103] 分割的方法。当标注数据和未标注数据具有相似的外观，并且有足够的标注数据来引导深度模型时，这种策略是有效的。当标注数据和未标注数据的特征数据的特征有显著差异时，例如不同花卉物种之间的差异，就需要更复杂的监督机制[216]。需要更复杂的监督机制 [216, 217]。

自我监督的方法：当没有标记数据可用时，可以使用自我监督策略从未标记数据中自动生成伪标签[39，75]。在这些场景中，初始模型被训练来求解代理任务，该代理任务可能具有与目标任务类似的表示结构[218]。无监督学习技术被广泛用于对齐潜在特征表示[216]。使用模型预测不确定性来指导学习过程的自我监督策略，虽然可以说更具可解释性和可预测性，但很少被探索。我们的方法使用多推理数据扩充机制与区域增长细化（RGR）算法[212]相结合，以迭代的方式生成稳健准确的伪标签。这些伪标签使我们的模型能够在以前看不见的数据集上不断提高性能。

泛光学方法：多任务学习通常用于提高不同任务的模型性能[5]。只要任务相似，模型往往会更好地推广到看不见的数据[120]。最近引入的全景分割方法联合学习了实例和语义分割的密切相关任务，目前代表了实例和语义学分割的最新技术[1212119]。然而，训练这样的模型需要大量包含实例和语义信息的手动标签。我们的方法可以将全景模型应用于显著不同的数据集，而无需手动标记。据我们所知，到目前为止还没有提出自监督全景分割方法。

4.3自监督泛光分割

我们提出的用于全景分割的自监督学习（SSL）技术如图所示。4.1包括三个主要组成部分：i）标记和未标记的数据扩充，ii）使用标记数据集初始化全景模型，以及iii）从未标记数据生成全景伪标签以更新模型。如Alg。5，我们使用来自训练集的图像及其相应的标签来使用SL策略训练我们的初始模型。然后，我们的SSL方法使用模型在上一次迭代中生成的伪标签，以完全自我监督的方式迭代更新初始模型。

4.3.1数据扩充

我们的方法基于[9]中提出的全景分割模型，该模型在COCO[24]和COCO stuff[220]数据集上预训练。微调对于花分割模型，我们使用滑动窗口（SW）技术来扩充[25]中介绍的训练集。

也就是说，我们从输入图像I及其对应的语义标签576 I中提取大小均为M×N个像素的、大小为;像素的重叠块，其步长为，

其中K是窗口大小因子。设=SWi（I，ŞI）是第I个图像补丁及其对应的语义标签。我们通过在随机选择的角度{θJ}Jj=1应用J个不同的旋转来增强Xi和ŞXi。为了提高采样效率，我们采用分层采样策略，而不是从区间[0，2π]直接采样。也就是说，我们将圆划分为以（π/2）·k为中心的五个扇区，k=0，1········4，并对每个扇区进行均匀采样。这种策略增加了样本多样性，最终减少了使用我们的方法生成的伪标签的方差。因此，用于训练监督模型的一组标记图像补丁和相应的手动标签由下式给出。

其中Rθj（·，·）将其两个自变量旋转角度θj。

我们对测试集的每个未标记图像采用相同的数据增强过程，以从相应的图像块Yi生成未标记的增强样本Yθij。在SSL方法中，我们使用SL模型来预测初始增广伪标签bYθij，该标签用于为看不见的数据集微调模型。第4.3.2节详细描述了伪标签生成程序。因此，每个花卉物种的未标记数据集为。

在测试时，我们简单地应用滑动窗口操作来生成归一化的语义得分图，并使用多数投票来组合与每个窗口的重叠部分相对应的预测。我们观察到在几次SSL训练迭代之后，测试时间数据增强的好处是可以忽略不计的。因此，我们在推理时不执行旋转增强，这确保了模型的计算时间保持不变。

图4.2：我们的全景伪标签生成方法的步骤说明。a）单个增强补丁的语义预测，b）使用等式4.4获得的归一化平均得分图，c）实例边界框，以及d）SSL迭代期间生成的实例分割掩码和语义标签。

4.3.2伪标签生成

数据分布的变化降低了分割模型的准确性。强大的数据扩充是缓解这一问题的有效策略[221]。因此，为了提高我们的模型对不同花卉物种的敏感性，我们将上述数据增强程序应用于Yi，并使用之前计算的网络权重W（r−1）在第r次SSL迭代时根据

为了将语义预测重新映射回原始图像坐标系，我们将具有双线性插值的反向旋转算子R-θj（·）应用于增广预测 Yθij 。然后我们使用softmax函数对分数进行归一化并使用平均归一化分数映射Oi作为我们的最终预测。

其中σ（·）表示对类C∈{background，flower}的单个logits逐元素应用的softmax函数。如图4.2（a）和（b）所示，

图4.3：使用固定阈值τseg（顶行）和基于RGR的语义细化（底行）生成的伪标签之间的比较。a）苹果a，b）苹果b，c）桃，d）梨。底部一行的图像中的分割遮罩更好地反映花朵边界，相应的边界框更好地区分附近的花朵实例。Oi包含的花的数量明显高于单个增强补丁Yθij。

4.3.3语义预测细化

我们使用RGR，一种稳健的分割细化方法[212]，而不是应用固定阈值τseg从Oi生成全景伪标签。RGR使用蒙特卡罗策略来使用相应的图像补丁Yi对Oi中的低置信度区域执行基于外观的细化，这允许它生成改进的二进制分割掩模。RGR使用三个关键元素来确定感兴趣对象的边界：1）模型预测的置信度，2）像素之间的外观相似性，以及3）像素间的距离。也就是说，图像中的每个像素都与具有相似外观的附近像素相关联，该像素的语义类别已经被高置信度地预测。如图4.3所示，RGR提高了伪标签的边界粘附性，并更好地区分花朵实例。

设Si是使用RGR从Oi获得的语义二进制掩码。与伪标记生成步骤一样，我们对Si应用J旋转来生成增广语义二元掩码，ξSθij=Rθj（Si）。然后，我们执行连通分量分析，以获得l＝1的相应实例掩码（m（l）θij）和边界框（b（l）φij）。L个不同的元素。增强全景伪标签由下式给出

图4.2（c）和（d）显示了这种方法可以生成高质量的边界框和实例掩码。

4.3.4多任务丢失

在SL和SSL模型中，使用来自增强标签的实例边界框Plot b（l）θij和分割掩码Plot m（l）φij来训练花类的ROI头。使用增广语义掩模576 Sθij来训练背景类和花类的语义分割头。对于全景分割学习，我们将背景视为事物类，将花朵视为事物类别[222]，以使用以下多任务损失函数联合更新模型：

其中，Lc是分类损失，Lb是边界框损失，Lm是掩码损失，Ls是分割损失，如[9]中所定义。通过使用所提出的SSL方法在未标记的数据集上进一步训练初始SL模型，其中增强全景标签对预测不确定性是鲁棒的，并且本质上包含旋转不变性，可以迭代地提高模型的性能。

4.4实验

我们使用[25]中描述的评估指标和程序，将我们的方法的性能与[25197]中提出的最先进的算法进行了比较。为了量化使用RGR作为伪标签生成策略的一部分的好处，我们评估了两种不同的生成伪标签的技术。

首先，我们评估了一种方法，在该方法中，我们将固定阈值τseg应用于预测得分图。为了进行公平的比较，我们基于模型在上一次迭代时在训练集上获得的最大F1分数来确定τseg（见图。4.5）。

我们称这种模型为SSL。我们在没有硬阈值的情况下使用RGR来细化分数图的模型被认为是SSL+RGR。我们还评估了通过将RGR作为后处理机制与SSL模型结合使用所获得的性能改进。我们将这种方法称为SSL+RGR（pp），其中pp代表后处理。作为基线，我们还评估了仅在t上训练的SL模型的性能

4.4.1数据集

我们在[25]中首次引入的多物种花朵数据集上评估了我们的方法，该数据集包括四个子集：i）AppleA（训练/测试），ii）AppleB，iii）Peach和iv）Pear。AppleA和AppleB数据集包含同一个苹果园的图像，但采集日期不同，条件不同。虽然AppleA是用手持相机收集的，但AppleB的图像是用安装在移动平台上的相机拍摄的。有关数据集的更多详细信息，我们请读者参阅第2.6.4节和[25]。

我们使用AppleA训练集训练我们的SSL模型，该训练集由100个分辨率为M×N=5184×3456像素的图像组成[25]。在应用J个旋转增强步骤后，每个输入图像的训练补丁的数量Xθij是J×（2K−1）2，因为i=1，2，（2K−1）×（2K‑1）和j=1，2。J.因此，对于K=4和J=20，AppleA数据集中有98000个训练补丁。这些补丁用于训练我们的初始全景花朵分割模型。

我们考虑一个随机选择的子集，包括来自AppleA测试集的30幅图像中的70%作为未标记图像I′，以使用自动生成的全景伪标签来微调SL模型。类似地，来自AppleB、Peach和Pear数据集的70%的图像（分别为18、24和18个图像），所有这些图像的分辨率都为2704×1520像素，被认为是用于迭代更新SL模型的未标记图像。每个数据集中的剩余图像仅用于性能评估。鉴于测试集的规模相对较小，我们使用五倍交叉验证来评估我们的方法。

图4.4：AppleA训练集中改进注释的示例。裁剪部分显示（a）包含背景像素的错误轮廓，以及（b）改进的标签。

[25]中介绍的数据集提供了单个花朵的像素级高分辨率注释。然而，如图4.4所示，注释有缺陷，只有在仔细检查时才能观察到。尽管这些不准确度很小，但它们包含了图像像素中不可忽略的部分，尤其是考虑到只有一小部分像素对应于花朵。为了解决这个问题，我们使用MATLABr图像标记器工具手动更正不准确的标签，并标记其他较小但清晰可见的未标记花朵。图4.4显示了更正前后注释的一些示例。

4.4.2训练的细节

数据集中的绝大多数图像像素对应于背景像素。因此，为了给模型提供足够的包含花朵像素的样本，我们使用随机梯度下降训练网络进行20000次迭代，批量大小为512个样本，基本学习率为25e−4，在训练周期的10%、25%和50%时除以10。我们在训练期间冻结了ResNet-101骨干[49]。为了强调语义学习，我们在等式4.6中使用λ=0.8。我们已经根据经验观察到，将RGR的样本之间的平均间距设置为100像素，可以在细化的分数图的准确性和生成它所需的计算时间之间提供足够的平衡。我们使用[25]中报告的值作为剩余参数，即迭代次数为10，分数图阈值为0.5，高置信度前景阈值是0.8并且高置信度背景阈值是0.01。

4.5结果和讨论

表4.1将SL和SSL模型的性能与[25197]中提出的算法进行了比较。尽管使用我们提出的数据增强策略训练的SL模型使用固定阈值τseg分割花朵，但即使不应用我们提出的SSL策略，它在与训练集相似的测试集上的表现也与最先进的模型不相上下或更好。然而，对于具有显著不同特征的数据集，SL模型的性能并不令人满意。使用固定阈值的SSL方法优于AppleB、Peach和Pear数据集上的基线方法，差异显著（相对于[197]，绝对IoU改善11.5%、3.5%和4.1%）。对于AppleA数据集，SSL方法本身的性能优于[25]，但略低于[197]。这在很大程度上是因为基线方法在训练集上表现得更好，而我们的模型在数据集上的性能保持相对稳定。正如下面更详细地讨论的，背景花导致性能下降。当我们使用RGR来细化伪标签时，我们观察到AppleB、Peach和Pear数据集相对于固定阈值SSL方法的IoU分别提高了1.9%、7.4%和3.8%。使用RGR获得的性能改进与用于模型预训练的AppleA数据集和相应的目标数据集之间的外观差异成比例。之间的平均色调、饱和度和值差AppleA数据集和AppleB数据集为30.3，而Peach和Pear数据集分别为76.9和28.9。最后，如下一节所述，在测试时执行额外的RGR步骤导致大约1.9%的额外平均IoU改进，但代价是显著更高的推理时间。图4.5显示了使用RGR进行伪标签细化和不进行伪标签精化的所提出的SSL方法的精度-召回曲线。

表4.1：使用SSL全景模型评估花朵分割性能。最佳结果以粗体显示，次佳结果以下划线显示。

我们报告了五次运行中评估措施的平均值及其标准偏差

图4.5：有和没有RGR伪标签细化的SSL模型的精度召回曲线。实心圆表示最大化F1分数的点。

图4.6：我们在测试数据集上提出的SSL方法的定性评估（a）AppleB，（b）Peach，（c）Pear。大多数假阳性与未标记的小花相对应

图4.6中的定性结果表明，SSL模型对复杂区域的花朵高度敏感。对于某些数据集，SSL方法显示的精度略低于[197]。精度较低的主要原因是我们的模型可以检测到的数据集中存在小的、未标记的花朵。这可以在图4.6（c）中观察到，其中有几朵小花，尤其是在离相机更远的树枝上。确定哪些花应该被注释是一个特定于应用程序的问题，需要进一步研究。

4.5.1参数敏感性和计算时间分析

表4.2显示了滑动窗口大小因子K和旋转角度数量J对模型性能和每个输入图像的平均推理时间的影响。该评估是在用K＝4和J＝20初始化的模型的第一次SSL迭代上执行的。也就是说，评估反映了模型参数对生成的伪标签的准确性的影响。前两行分别显示了在不使用AppleA和AppleB数据集的测试时间旋转（即，J=1）的情况下，改变K对测试时间的影响。表的最后一行显示，当在推理时使用旋转增强时，Peach数据集上的IoU和F1测量值随着J而逐渐增加，但计算时间也是如此。使用一个NVIDIAr GeForcer RTX 2080 Ti GPU在没有任何多处理技术的情况下获得推断时间。使用RGR的后处理时间比我们的Intelr Xeonr上表4.2中所示的时间高出约16倍

表4.2：滑动窗口大小和旋转角度数量对性能的影响。

Silver 4112 CPU@2.6GHz。其余数据集的结果相似，为简洁起见，省略。图4.7显示了λ在多任务损失中的影响（等式。

4.6）。尽管随着λ的变化，我们的方法的性能保持相对稳定，但对于大多数数据集，在0.7≤λ≤0.9的情况下获得了最佳结果，尤其是在外观变化更突出的跨物种场景中。

4.6结论

我们引入了一种自我监督学习技术，可以准确地分割多个树种，而无需大量的手动标记工作。为了自动为未标记的数据集生成实例和语义标签，我们提出了一种与语义分割细化策略相关的数据增强技术，该技术为自监督模型训练生成准确的伪标签。所提出的SSL技术使得在未标记的果树数据集上有效地训练深度多任务模型成为可能。自监督学习大大减少了模型对计算昂贵的后处理步骤的依赖性，以进一步细化推理时的模型预测。也就是说，在我们的SSL模型中采用后处理方法可以进一步提高其预测精度。我们的新SSL方法为多物种花朵分割任务创建了一个新的基线。

图4.7：在J=20和K=4的第一次SSL迭代中，损失权重λ（等式4.6）对花朵分割性能的影响

稳健准确的多物种花朵检测方法是开发自主机器人疏伐系统的第一步[223]。在未来，所提出的全景花朵分割算法可以在许多方面得到进一步改进。首先，我们提出的框架主要采用基于图像旋转的数据增强策略。考虑到正在考虑的问题的特点，理所当然的是，额外的数据增强策略，如颜色抖动和图像模糊，将进一步有助于生成准确的伪标签。此外，与实例和语义分割任务使用经验定义的权重不同，任务相关的不确定性学习策略[17]可以更好地捕捉外观变化，以优化任务权重。最后，伪标签像素或有时整个实例可能具有低预测分数。不确定性权衡损失函数[18]是实现这一目标的一种很有前途的技术。

知新_ROL

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
全景分割的自监督学习

在本章中，我们将第3章中讨论的SSL方法扩展到语义和全景分割任务。使用手动生成的标签训练的卷积神经网络通常用于语义或实例分割。在精准农业中，自动化花朵检测方法使用监督模型和后处理技术，随着花朵的外观和数据采集条件的变化，这些技术可能无法始终如一地执行。我们提出了一种自监督学习策略，使用自动生成的伪标签来提高分割模型对不同花卉物种的敏感性。我们来提高模型预测的准确性。然后将增强的语义预测转换为全景伪标签，以迭代训练多任务模型。可以使用现有的后处理方法对自监督模型预测进行细化，以进一步提高其准确性。
复制链接

扫一扫