[论文翻译]Multi-Task Learning for Dense Prediction Tasks: A Survey

最新推荐文章于 2025-01-15 16:19:49 发布

糊面包包专属

最新推荐文章于 2025-01-15 16:19:49 发布

阅读量5.3k

点赞数 14

分类专栏：论文翻译

本文链接：https://blog.csdn.net/weixin_44189610/article/details/113862785

版权

论文翻译专栏收录该内容

5 篇文章

订阅专栏

本文回顾了深度学习中多任务学习的最新进展，聚焦于密集预测任务，分为编码器和解码器为中心的架构。讨论了软硬参数共享、蒸馏任务预测等方法，以及优化任务平衡的策略。实验对比了不同方法在NYUD-v2和PASCAL数据集上的性能，揭示了任务字典和架构选择对MTL性能的影响。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文地址：https://arxiv.org/pdf/2004.13379.pdf

一、作者介绍

作者来自于苏黎世联邦理工大学（ETH）和鲁汶大学的在读研究生以及教授。

二、文章介绍

本文对深度学习多任务学习中的计算机视觉密集任务方法进行了概述。文章结构如下：
在这里插入图片描述

三、正文翻译

摘要：

随着深度学习的出现，许多密集预测任务，即产生像素级预测的任务，都得到了显著的性能提升。典型的方法是单独地学习这些任务，也就是说，为每个单独的任务训练一个单独的神经网络。然而，最近的多任务学习(MTL)技术通过学习到的共享表示来联合处理多个任务，在性能、计算和内存占用方面显示出了很有前途的结果。在本调查中，我们提供了计算机视觉中最先进的MTL深度学习方法的全面视角，明确强调了密集预测任务。我们的贡献涉及以下方面。首先，我们从网络架构的角度来考虑MTL。这包括一个广泛的概述，并讨论了最近流行的MTL模型的优点/缺点。其次，我们研究了处理多任务联合学习的各种优化方法。我们对这些作品的定性元素进行总结，并探讨它们的共性和差异。最后，我们通过各种密集预测基准提供了广泛的实验评估，以检查不同方法的优缺点，包括架构和基于优化的策略。
关键词：多任务学习, 稠密预测任务, 像素级别任务, 优化, 卷积神经网络；

1.Introduction

在过去的十年中，神经网络已经在许多任务中显示了令人印象深刻的结果，如语义分割[1]，实例分割[2]和单眼深度估计[3]。传统上，这些任务是单独处理的，即为每个任务训练一个单独的神经网络。然而，许多现实世界的问题本质上是多模态的。例如，一辆自动驾驶汽车应该能够分割车道标记，检测场景中的所有实例，估计它们的距离和轨迹等，以便在其周围安全导航。同样，一个智能的广告系统应该能够以其视角检测人的存在，了解他们的性别和年龄，分析他们的外观，跟踪他们正在看的地方等，从而提供个性化的内容。与此同时，人类非常善于同时解决许多任务。生物数据处理似乎也遵循一种多任务策略:不同的处理过程似乎共享相同的大脑早期处理层，而不是将任务分开并单独处理它们(参见4]中的V1)。上述观察结果促使研究人员开发了广义深度学习模型，给一个输入可以推断所有需要的任务输出。
多任务学习(MTL)[30]旨在利用相关任务训练信号中包含的领域特定信息来改善这种泛化。在深度学习时代，MTL转换为设计能够从多任务监控信号中学习共享表示的网络。与单任务情况下每个独立的任务都由自己的网络单独解决相比，这种多任务网络有几个优点。首先，由于它们固有的层共享，由此产生的内存占用大幅减少。其次，由于它们明确避免在共享层中重复计算特性，对于每个任务一次，它们显示出提高的推理速度。最重要的是，如果关联的任务共享互补的信息，或充当彼此的正则化器，它们就有提高性能的潜力。
范围。在本研究中，我们研究了计算机视觉中MTL的深度学习方法。我们建议有兴趣的读者参考[31]，了解MTL在其他领域的应用，如自然语言处理[32]、语音识别[33]、生物信息学[34]等。最重要的是，我们强调解决多个像素级或密集的预测任务，而不是多个图像级分类任务，这是MTL中最未充分探索的一个案例。处理多个密集预测任务与解决多个分类任务在几个方面有所不同。首先，由于联合学习多个密集预测任务是由使用不同的损失函数来控制的，不像分类任务大多使用交叉熵损失，需要额外考虑避免在训练过程中一些任务压倒其他任务的情况。第二，与图像级分类任务不同，密集预测任务不能直接从共享的全局图像表示[35]中预测，这使得网络设计更加困难。第三，场景理解中的像素级任务通常具有类似[14]的特征，这些相似之处可能用于在MTL设置下提高性能。一个流行的例子是语义分割和深度估计[13]。
动机。关于MTL的大量文献相当零碎。例如，我们在第2节中确定了关于深度多任务架构的两组主要的工作，它们被认为在很大程度上是相互独立的。此外，对使用的评价指标和基准的一致意见有限。本文旨在对这一问题提供一个更加统一的观点。此外，我们还提供了一个全面的实验研究，对不同的作品组进行比较。
相关的工作。MTL是多次调查的对象[30]，[31]，[36]，[37]。在[30]中，卡鲁阿纳表明，MTL是有益的，因为它允许通过将相关的额外任务纳入到训练管道中来获得诱导偏差。作者展示了MTL在人工神经网络、决策树和k最近邻方法中的使用，但本研究处于神经网络的早期，使得它在深度学习时代已经过时。Ruder[36]综述了近年来应用于深度神经网络的MTL技术(如[5]、[6]、[9]、[19])。同样，Zhang和Yang[31]对MTL的特征学习、低秩、任务聚类、任务关系学习和分解方法进行了研究。然而，这两部作品都是文献综述研究，没有实证评价或比较所呈现的技术。最后，Gong等人在三个MTL数据集上对几种优化技术(如[8]、[19])进行了基准测试。尽管如此，这项研究的范围相当有限，并且明确地集中在优化方面。最重要的是，所有先前的研究都提供了对MTL的总体概述，而没有特别关注在计算机视觉中最重要的密集预测任务。
论文概述。在下面的章节中，我们将全面介绍所定义范围内的最先进的MTL技术。第2节考虑了不同的深度多任务架构，将它们分为两大类:以编码器和解码器为重点的方法。第三节考察了在更新网络权值时平衡任务影响的各种优化技术。我们考虑了大部分的任务平衡、对抗和调制技术。在第4节中，我们在不同的数据集上提供了广泛的实验评估，包括在每组方法的范围内(例如，以编码器为中心的方法)以及在不同组方法(例如，以编码器为中心的方法vs以解码器为中心的方法)。第五节讨论了MTL与其他领域的关系。第六部分是全文的总结。
图1显示了论文的结构化概述。我们的代码是公开的，以方便采用经过查阅的MTL技术:https://github.com/ simonvandenende /Multi-Task-Learning-PyTorch
在这里插入图片描述

2.多任务学习结构

在本节中，我们将回顾计算机视觉中使用的深度多任务架构。首先，我们简要概述MTL方法的历史，然后介绍一种新的分类法来对不同的方法进行分类。其次，我们从不同的作品组来讨论网络设计，并分析它们的优缺点。稍后第4节还将提供一个实验比较。请注意，由于每个体系结构的详细介绍超出了本调查的范围，在每种情况下，我们建议读者查阅相应的论文，以获得对以下描述的进一步补充。

2.1 历史回顾与分类

2.1.1 非深度学习方法

在深度学习时代之前，MTL作品试图对任务之间的共同信息进行建模，希望联合任务学习能够获得更好的泛化性能。为了实现这一点,在任务参数空间作出假设,如:任务参数应该互相彼此靠近.一些距离度量[38]，[39]，[40]，[41]，具有共同的概率先验[42]，[43]，[44]，[45]，[46]，或存在于低维子空间[38]0，[38]1，[38]2或流形[50]。当所有任务都是相关的[38]、[47]、[51]、[52]时，这些假设可以很好地工作，但如果在不相关的任务之间发生信息共享，则可能导致性能下降。在MTL中，后者是一个众所周知的问题，称为负迁移。为了缓解这个问题，其中一些作品选择基于对任务相似性或相关性的先验信念将任务分组。

2.1.2 深度学习中的软、硬参数共享

在深度学习环境中，MTL是通过从多任务监控信号中学习共享表示来执行的。历史上，深度多任务架构分为硬参数共享技术和软参数共享技术。在硬参数共享中，参数集分为共享参数和任务特定参数(见图2a)。使用硬参数共享的MTL模型通常由一个共享编码器组成，该编码器分叉成特定任务的头[19]、[20]、[22]、[53]、[54]。在软参数共享中，每个任务被分配它自己的一组参数，一个特征共享机制处理跨任务对话(参见图2b)。下面我们总结了两组作品的代表性作品。
在这里插入图片描述

硬参数共享。 UberNet[55]是第一个硬参数共享模型，共同解决了大量的低、中、高级别远景任务。该模型具有跨不同网络层和规模的多头设计。尽管如此，最具特色的硬参数共享设计是由一个共享编码器组成的，该编码器分支到特定任务的解码头[19]，[20]，[22]，[53]，[54]。多线性关系网络[56]通过在全连通层的参数集上放置张量法向先验来扩展这种设计。在这些工作中，网络中的分支点是临时确定的，这可能导致次优任务分组。为了缓解这个问题，最近的几部作品[9]，[10]，[11]，[12]提出了高效的设计程序，可以自动决定在网络中的何处共享或分支。类似地，随机滤波器组[57]重新利用了每一层的卷积核来支持共享或特定于任务的行为。

软参数共享。 Cross-stitch networks [5]在深层MTL架构中引入了软参数共享。该模型使用特定任务网络中每一层激活的线性组合作为软特征融合的手段。Sluice networks[6]扩展了这一思想，允许学习有选择地共享层、子空间和跳过连接。NDDR-CNN[7]还将降维技术纳入特征融合层。不同的是，MTAN[8]使用了一种注意机制，在特定任务的网络中共享一个通用特性池。软参数共享方法的一个关注点是可伸缩性，因为多任务网络的大小往往与任务数量呈线性增长。

2.1.3 深度学习中的蒸馏任务预测

第2.1.2节中介绍的所有作品都遵循一个共同的模式:它们直接预测一个处理周期中相同输入的所有任务输出。与此相反，最近的一些研究首先使用多任务网络来进行初始任务预测，然后利用这些初始预测的特性以一次性或递归的方式进一步改进每个任务输出。PAD-Net[13]提出通过空间注意力从其他任务的初始任务预测中提取信息，然后将其作为剩余信息添加到感兴趣的任务中。JTRL[15]选择按顺序预测每个任务，目的是在每次迭代时利用来自一个任务过去预测的信息来细化另一个任务的特性。PAP-Net[14]扩展了这一思想，并使用递归过程传播在初始任务预测中发现的类似的交叉任务和特定任务模式。为此，他们对初始预测的亲和矩阵进行操作，而不是像[13]和[15]之前那样对特征本身进行操作。Zhou等人的[17]通过分离任务间和任务内的模式，改进了使用像素亲和力来提取信息。MTI-Net[16]采用了一种多尺度多模态蒸馏过程来明确地模拟在每个独立尺度上发生的独特的任务交互作用。

2.1.4 MTL方法的一种新分类法

如2.1.2节所述，多任务网络历史上分为软参数共享技术和硬参数共享技术。然而，最近的一些作品从这两组作品中获得了灵感，共同解决多个像素级任务。因此，软与硬参数共享范式是否仍应作为分类MTL体系结构的主要框架仍存在争议。在这个调查中，我们提出了一种不同的分类法，根据任务交互发生的位置来区分不同的架构，即任务之间交换或共享信息或特征的网络位置。这一框架的推动力在第2.1.3节给出。基于该准则，我们区分了两种类型的模型:编码器聚焦和解码器聚焦架构。以编码器为中心的架构(见图3a)只在编码器中共享信息，使用硬参数或软参数共享，然后用一个独立的特定于任务的头解码每个任务。不同的是，以解码器为重点的架构(见图3b)也在解码阶段交换信息。图1给出了拟议分类法的概述，列出了每种情况下的代表性工作。
在这里插入图片描述

2.2 Encoder-Focused架构

以编码器为中心的架构(见图3a)在编码阶段共享任务特征，然后再用一组独立的特定任务的头部来处理它们。一些作品[19]、[20]、[22]、[53]、[54]采用了这种策略，与特定任务的任务头一起共享现成的骨干网(见图2a)。该模型依赖编码器(即骨干网)来学习场景的一般表示。然后，特定任务头使用编码器的特征来获得每个任务的预测。虽然这个简单的模型在所有的任务中共享了完整的编码器，但最近的工作已经考虑了在编码器中应该在哪里以及如何共享特性。我们将在下面的章节中讨论这种共享策略。

2.2.1 十字交叉网络

在这里插入图片描述

如图4，十字交叉网络就是在两个网络的特征层之间增加“十字绣”单元可以使网络自动学习到需要共享的特征。其中“十字绣”单元就是一个系数矩阵。
在这里插入图片描述
这个过程在编码器的多个位置重复，通过学习权重矩阵就能学习到共享的信息。在实践中，我们需要对单任务网络进行预训练，然后再将它们拼接在一起，以使性能最大化。十字绣网络的一个缺点是网络的规模会随着任务数量的增加而呈线性增长。此外，也不清楚十字绣应该插在哪里，以使其效果最大化。 Sluice networks[6]通过支持选择性共享子空间和跳过连接扩展了这一工作。

2.2.2 神经判别式降维

在这里插入图片描述
神经判别式降维CNNs (NDDR-CNNs)[7]与十字交叉网络使用了类似的架构(见图4)。然而，不是利用线性组合来融合所有单任务网络的激活，而是采用了降维机制。首先，在单任务网络中具有相同空间分辨率的特征按通道级联。其次，在将结果输入到下一层之前，通过对特征进行1 × 1的卷积层处理来减少通道数量。因此，NDDR层的输出保留了来自输入特征的区分性信息，并可以提供给单任务网络的以下层。。不同的是，十字绣网络只允许从共享相同索引的通道融合激活。当卷积层权值矩阵中的非对角元素为零时，NDDR-CNN就表现为十字针网络。

由于与十字绣网络的相似性，NDDR-CNNs也容易出现同样的问题。首先，在处理大量任务时存在可伸缩性问题。其次，NDDR- CNN涉及到额外的设计选择，因为我们需要决定在哪里包含NDDR层。最后，当融合来自不同单任务网络的激活时，十字针网络和NDDR-CNNs都只允许使用有限的局部信息(即小的感受野)。我们假设这是次优的，因为在编码过程中使用足够的上下文是非常重要的——正如图像分类[58]和语义分割[59][60]的任务所显示的那样[61]。这在2.3节中得到了一些以解码器为中心的架构的支持，这些架构通过在多个尺度上预测任务和在每个尺度上重复共享特征来克服有限的感受域。

2.2.3 多任务注意力网络

使用共享骨干网与编码器中特定任务的注意模块(见图5)。共享骨干网提取了一个通用的特征池。然后，每个任务特定的注意模块通过应用一个软注意掩码从通用池中选择特征。注意机制采用正则卷积层和sigmoid非线性实现。由于注意模块与骨干网相比较小，MTAN模型不会受到通常与十字针网络和NDDR-CNN相关的可伸缩性问题的严重影响。然而，与后一种融合机制类似，MTAN模型只能利用有限的局部信息产生注意掩码。
在这里插入图片描述

2.2.4 分支的多任务学习网络

第2.2.1-2.2.3节中提出的模型在编码阶段在任务之间软共享特性。不同的是，分支多任务网络遵循硬参数共享方案。在提出这些方法之前，考虑以下观察:深度神经网络倾向于学习层次图像表示[62]。早期的层倾向于关注更一般的低级图像特征，如边缘、角落等，而更深的层倾向于提取更特定于任务的高级信息。受此启发，分支MTL网络选择学习类似的层次编码结构[9]，[10]，[11]，[12]。这些分支网络通常从许多共享层开始，然后不同的(组)任务分支到它们自己的层序列。在这样做的过程中，随着我们向更深的层移动，不同的分支逐渐变得更加特定于任务。这种行为与深度神经网络学习的层次表示很好地一致。然而，由于可能的网络配置的数量组合起来很大，决定共享哪些层和向何处分支变得很麻烦。一些工作试图自动化的过程，层次的集群任务，形成分支MTL网络给定特定的计算预算(如参数的数量，字拖)。我们在下面提供了现有方法的概述。
完全自适应特征共享(FAFS)[9]从任务最初共享所有层的网络开始，并在训练过程中以贪婪的逐层方式动态增长模型。对任务组进行优化，使不同的任务相互分离，同时使网络复杂度最小化。任务相关性是基于在任务中同时出现简单或困难的例子的概率。这种策略假设，当大多数例子对于一项任务来说是“简单的”，但对于另一项任务来说是“困难的”时，以一种独立的方式解决两项任务(即不同的分支)是更可取的。
与FAFS类似，vandenende等人[10]依靠预先计算的任务相关性得分来决定任务的分组。与FAFS不同的是，它们基于特征亲和度分数来衡量任务的相关性，而不是样本的难度。主要的假设是，如果两个任务的单一任务模型依赖于相似的特征集，那么它们是紧密相关的。一种有效的方法[63]用于量化这一特性。与FAFS相比，一个优点是可以离线确定整个网络的任务分组，而不是以贪婪的逐层方式在线确定[10]。这种策略促进任务分组是在全局而非局部意义上的最优。然而，一个缺点是计算任务亲和性分数需要一组单任务网络首先进行预训练。
与以往的工作不同的是，分支Multi-T ask Architecture Search (BMTAS)[11]和Learning T o Branch (LTB)[12]直接优化了网络拓扑，而不依赖于预先计算的任务相关度分数。更具体地说，它们依赖于树形结构的网络设计空间，其中的分支点被称为Gumbel softmax操作。与[9]、[10]相比，该策略的优势在于可以直接对考虑的任务进行端到端的优化。此外，这两种方法都可以很容易地应用于任何一组任务，包括图像分类和逐像素预测任务。与[9]、[10]类似，可以通过包含一个资源感知的损失项来获得一个紧凑的网络拓扑。在这种情况下，计算预算和多任务学习目标以端到端的方式联合优化。

2.3 Decoder-Focused架构

第2.2节中以编码器为中心的架构遵循了一个常见的模式:它们在一个处理周期中直接预测来自相同输入的所有任务输出(即，所有预测都是一次性生成的，以并行或顺序生成，之后不进行细化)。这样一来，他们就无法捕捉到任务之间的共性和差异，而这些共性和差异可能对彼此都有好处 (例如，深度不连续通常与语义边缘对齐) 。有争议的是，这可能是MTL的以编码器为中心的方法只实现了适度的性能改进的原因(见4.3.1节)。为了缓解这个问题，一些最近的研究首先使用多任务网络来进行初始任务预测，然后利用这些初始预测的特性来进一步改进每个任务输出-以一种一次性或递归的方式。由于这些MTL方法也在解码阶段共享或交换信息，我们将其称为以解码器为重点的架构(见图3b)。

2.3.1 PAD-Net

PAD-Net[13]是最早的以解码器为重点的架构之一。模型本身如图6所示。可以看出，输入图像首先由一个现成的骨干网进行处理。主干特征由一组任务特定的头部进一步处理，这些头部为每个任务产生一个初始预测。这些最初的任务预测给网络增加了深度监督，但它们也可以用来在任务之间交换信息，下文将对此进行解释。在任务特定的头部的最后一层的任务特征包含每个任务特征表示的场景。PAD-Net建议通过一个多模态蒸馏装置将它们重新组合，该装置的作用是在产生最终的任务预测之前提取交叉任务信息。

在这里插入图片描述
第2.2节中以编码器为中心的方法在使用编码器中的中间表示的任务之间共享特性。不同的是，PAD-Net通过在特定任务的头部特征上应用空间注意层来模拟任务交互。与编码器中的中间特征表示不同，PAD-Net使用的任务特征已经根据输出任务进行了解缠。我们假设这使得其他任务更容易提取相关信息。这种来自PAD-Net的多步解码策略在其他以解码为主的方法中得到了应用和改进。

2.3.2 Pattern-Affinitive传播网络

模式亲和传播网络(PAP-Net)[14]使用了类似于PAD-Net的架构(见图7)，但该工作中的多模态蒸馏以不同的方式进行。作者认为，直接通过空间注意机制进行任务处理，可能是一种次优选择。由于优化仍然发生在不同的空间，即任务标签空间，不能保证模型将学习所需的任务关系。相反，他们从统计数据上观察到，像素亲和力倾向于与任务标签空间上的公共局部结构很好地对齐。基于这一观察结果，他们提出利用像素亲和力来进行多模态蒸馏。
在这里插入图片描述
为了实现这一点，骨干特征首先由一组特定任务的头部处理，以获得每个任务的初始预测。其次，通过估计来自每个头部的任务特征的像素相关度来计算每个任务像素相关度矩阵MTj。交叉任务信息矩阵ˆMTj通过自适应权重α对单个任务的像素相关度矩阵进行结合。
在这里插入图片描述
最后，将跨任务信息矩阵扩散到单个任务中。这些改进的特性被用来为每一个任务做出最终的预测。
所有前面讨论的方法在融合来自不同任务的特征时只使用有限的局部信息。例如，十字绣网络和NDDR-CNNs以信道方式结合特征，而PAD-Net仅使用来自3 × 3像素窗口内的信息来构建空间注意掩码。不同的是，PAPNet还通过测量整个图像的像素亲和力来模拟非局部关系。Zhou等人的[17]扩展了这个想法，专门挖掘和传播任务间和任务内的模式。

2.3.3 联合任务递归学习

联合任务递归学习(JTRL)[15]递归预测两个任务在越来越大的尺度上，以逐步完善基于过去状态的结果。架构如图8所示。与PAD-Net和PAP-Net类似，一种多模态精馏机制被用来组合来自早期任务预测的信息，通过这些信息来细化后期的预测。不同的是，JTRL模型以交织的方式顺序地预测两个任务，而不是并行地预测。这种方法的主要缺点是，考虑到改进任务预测的交织方式，不能直接或甚至不可能将该模型扩展到两个以上的任务。
在这里插入图片描述

2.3.4 多尺度任务交互网络

在目前提出的以解码器为中心的体系结构中，多模态精馏是在一个固定的尺度下进行的，即主干最后一层的特征。这基于一个假设，即所有相关的任务交互只能通过具有特定接收字段的单个筛选操作建模。然而，多尺度任务交互网络(MTI-Net)[16]表明这是一个相当严格的假设。事实上，不同的任务在不同的接受部位会产生不同的影响。
为了考虑这一限制，MTI-Net明确地考虑了多个尺度上的任务交互。它的架构如图9所示。首先，一个现成的骨干网从输入图像中提取一个多尺度的特征表示。从多尺度特征表示出发，在每个尺度上对每个任务进行初始预测。特定尺度的任务预测是通过将特定任务的头部应用到该尺度上提取的主干特征来发现的。与平板网类似，针对特定任务的头部的最后一层的特征被结合并细化，从而做出最终的预测。不同的是，在MTI-Net中，每个任务特征表示可以在每个尺度上分别进行提取。这允许有多个任务交互，每个都在一个特定的接收字段中建模。提取的多尺度特征被升级到最高尺度并连接起来，最终得到每个任务的特征表示。最终的任务预测是通过解码这些最终的特征表示在特定的任务的方式再次发现。通过使用特征传播模块将信息从低分辨率任务特征传播到高分辨率任务特征，性能得到了进一步提高。
在这里插入图片描述
[16]的实验评估表明，与仅在单个尺度上提取任务信息的PAD-Net相比，在多个尺度上提取任务信息可以提高多任务处理性能。此外，由于MTI-Net在多个尺度上提取特征，即使用不同的像素膨胀，它克服了仅使用有限的局部信息来融合特征的问题，这在PAP-Net中已经被证明是有益的。

2.4 其他方法

文献中已经提出了许多不属于上述范畴的方法。例如，多线性关系网络[56]对特定任务头的参数集使用了张量法向先验在解码阶段允许交互。与标准的分层对齐共享(如[5]、[7])的并行排序方案不同，软层排序[64]提出了一种灵活的跨任务和网络深度的共享方案。Yang等人[65]将矩阵分解方法推广到MTL，以便学习网络每一层的跨任务共享结构。路由网络[66]提出了一种原则方法，通过路由来确定网络功能块的连通性。Piggyback[67]展示了如何通过学习二进制掩码使单个固定的神经网络适应于多任务网络。Huang等人[68]介绍了一种基于神经结构搜索(NAS)的方法，用于自动构建基于树的多属性学习网络。随机滤波器组[57]重新利用了网络每一层的卷积核来支持共享或特定任务的行为。相似的，feature partitioning[69]提出了分区策略，将网络每一层的卷积核分配到不同的任务中。一般来说，这些工作在MTL中有不同的范围，例如自动化网络架构设计。此外，他们主要专注于解决多重(二元)分类任务，而不是多重密集预测任务。因此，它们不在本次调查的范围之内，但有一个值得注意的例外情况将在下文中讨论。
[18]建议采取“单任务”的路线来解决MTL问题。也就是说，在一个多任务框架中，他们分别执行前向传递，每个任务执行一个前向传递，激活所有任务之间的共享响应，以及一些特定于任务的剩余响应。此外，为了抑制负迁移问题，他们在梯度水平上应用了对抗性训练，使他们在不同任务之间在统计上无法区分。这种ap8方法的一个优点是，网络中共享的和特定于任务的信息可以自然地分离。然而，消极的一面是，任务不能完全预测，只能一个接一个地预测，这大大提高了推理速度，并在某种程度上违背了MTL的目的。

3. 多任务学习的优化

在前一节中，我们讨论了能够同时学习多个任务的网络架构的构建。然而，MTL中的一个重大挑战来自于优化过程本身。特别是，我们需要仔细平衡所有任务的联合学习，以避免一个或多个任务在网络权值中占主导地位的情况。在本节中，我们将讨论考虑这个任务平衡问题的几种方法。

3.1 任务平衡方法

3.1.1 不确定性权重

3.1.2 梯度标准化

3.1.3 动态平均权重

3.1.4 动态任务优先级

3.1.5 多任务学习作为多目标优化

3.1.6 讨论

在3.1节中，我们描述了几种在训练多任务网络时平衡每个任务影响的方法。表1提供了所描述方法的定性比较。我们在下面总结了一些结论。(1)我们发现了这些方法之间的差异，例如不确定性加权给“容易”任务分配了更高的权重，而DTP主张相反。后者可以归因于文献中使用不同的数据集或任务字典对不同的任务平衡策略进行了实验评估。我们认为一个合适的任务平衡策略应该将根据每一情况单独决定。(2)我们还发现上述方法之间的共性，如不确定性加权、梯度规范化和MGDA选择平衡损失程度作为他们学习策略的一部分。在第4.4节中，我们提供了广泛的消融研究，在更常见的数据集或任务字典下，以验证哪些任务平衡策略对提高多任务性能最有用，以及在哪些情况下。(3)许多工作(如DWA、DTP)仍然需要对初始超参数进行细致的手动调优，这可能会限制它们在处理大量任务时的适用性。
在这里插入图片描述

3.2 其他方法

4. 实验

本节提供了前面讨论的方法的广泛比较。首先，我们在4.1节中描述实验设置。我们涵盖了使用的数据集，方法，评价标准和训练设置，因此读者可以很容易地解释所获得的结果。第4.2节概述了这些结果，使我们能够确定几个总体趋势。4.3节对MTL架构进行了更详细的比较，而4.4节考虑了任务平衡策略。对于定性结果，我们建议读者参考补充资料。

4.1 实验设置

4.1.1 数据集

我们的实验是在两个流行的稠密标记基准上进行的，即NYUD-v2[73]和PASCAL[74]。我们选择的数据集为我们提供了不同的设置对，允许我们仔细检查所考虑的方法的优点和缺点。我们还考虑了在原始作品中使用的数据集。下面将更详细地描述这两个数据集。
PASCAL 数据集 [74]是密集预测任务的流行基准。我们使用带有标注的PASCALContext部分[75]来进行语义分割、人体部分分割和语义边缘检测。此外，我们还考虑了表面法线预测和显著性检测任务。注释由[18]使用预先训练的最先进的模型[76]，[77]进行提炼。使用最优数据集F-measure (odsF)[78]对边缘检测任务进行评估。语义分割、显著性估计和人体部分分割任务使用mIoU进行评价。我们使用预测角度的平均误差(mErr)来评估表面法线。

NYUD-v2数据集 [73]考虑了室内场景理解。该数据集包含795张训练图像和654张测试图像，并对其进行了语义分割和单目深度估计。其他一些工作还考虑了NYUD-v2数据集上的表面法线预测[13]，[14]，[18]和语义边缘检测[13]，[18]。这些任务的标注可以直接从语义和深度估计的真值得到。在这项工作中，我们的重点是语义分割和深度估计任务。我们分别使用并上的交集(mIoU)和均方根误差(rmse)来评估语义分割和深度估计任务。
表2给出了使用的数据集的概述。我们用星号标记通过蒸馏得到注释的任务。
在这里插入图片描述

4.1.2 评价标准

除了报告每个单任务的性能外，我们还为多任务模型提供了一个单数字性能度量。在之前的工作[10]，[11]，[16]，[18]下，我们定义多任务学习模型性能∆MTL作为每个单任务的平均性能。单任务基线b:
在这里插入图片描述
其中，li= 1，如果Mi值越低，表示任务i的性能越好，反之为0。单任务性能是为完全融合的模型衡量的，该模型仅使用同一骨干网来执行该任务。为了得到公平的比较，所有结果都是在超参数上进行网格搜索后得到的。这确保每个模型都经过了相当数量的微调。关于训练设置的更多细节，请参阅4.1.4节。
当使用不同的超参数时，MTL性能指标不能解释差异。为了解决这个问题，我们使用性能配置文件分析所使用的超参数对NYUD-v2的影响。最后，在比较多任务架构时，除了性能评估外，我们还包括模型资源占用，即参数的数量和浮点计算次数。

4.1.3 对比方法

表3总结了我们实验中使用的模型和任务平衡策略。我们考虑以下关于NYUD-v2和PASCAL的第2.2节中的以编码器为中心的架构:带有共享编码器和特定任务解码器的MTL基线，十字交叉网络[5]，NDDRCNN[7]和MTAN[8]。我们不包括分支的MTL网络，因为这组作品主要位于神经结构搜索领域，并专注于寻找符合特定计算预算约束的MTL解决方案。我们参考相应的论文[9]，[10]，[11]，[12]对该问题进行了具体的实验分析。所有比较模型都使用扩大卷积的ResNet[79]编码器[77]。我们在NYUD-v2上的实验中使用ResNet-50变体。在PASCAL上，由于GPU内存的限制，我们使用了较浅的ResNet-18模型。特定任务的头部使用一个大庭空间金字塔池(ASPP)[77]模块。
此外，我们还从2.3节介绍了以下以解码器为重点的方法:JTRL[15]、PAP-Net[14]、PADNet[13]和MTI-Net[16]。请注意，对所有模型进行直接比较并不简单。这背后有几个原因。首先，MTI-Net在输入图像的多尺度特征表示的基础上运行，它假设一个多尺度骨干，不像其他最初设计时考虑的单一尺度骨干网络。其次，JTRL是为两个任务严格设计的，没有对MTL设置进行任何明显的扩展。最后，PAP-Net的行为与PAD-Net相似，但通过递归扩散过程在像素亲和力上进行多模态蒸馏。
基于这些观察，我们将实验组织如下。在NYUD-v2上，我们考虑PAD-Net、PAPNet和JTRL与ResNet-50骨干结合使用。这有助于在单一尺度特征提取器上操作的编码器和解码器聚焦方法之间进行一一比较。我们使用多尺度HRNet-18骨干在NYUD -v2数据集上对MTI-Net和PAD-Net进行了单独比较[80]。最后，我们使用多尺度HRNet-18骨干在PASCAL上重复比较PAD-Net和MTI-Net，以验证以解码器为重点的方法如何处理更大和更多样化的任务字典。除了MTL架构之外，我们还比较了3.1节中的任务平衡技术。我们分析了固定权重[19]、不确定权重[19]、分级权重[20]、DWA权重[8]和MGDA权重[22]的使用。我们没有包括DTP[21]，因为这项技术需要定义额外的关键性能指标(见3.1.4节)。任务平衡方法与使用单尺度ResNet骨干的MTL基线模型相结合进行评估。我们没有考虑任务平衡技术如何与其他MTL架构交互。这个选择源于以下观察结果。首先，基于香草硬参数共享模型(即MTL基线)，专门设计了GradNorm和MGDA。其次，不确定性加权和DWA根据特定任务的损失对任务进行重估。由于损失值更多地依赖于所使用的损失函数，而较少地依赖于所使用的架构，所以我们期望在插入不同的模型时，这些方法会导致类似的任务权重。
在这里插入图片描述

4.1.4 训练设置

我们重用了[16]中的损失函数和增广策略。用[18]中获得的固定损耗权值训练MTL模型，并通过网格搜索优化。所有实验都是使用预先训练的ImageNet权重进行的。优化器、学习率和批大小都通过网格搜索程序进行了优化，以确保所有比较方法之间的公平比较。更具体地说，我们batch-size为6和12，以及Adam (LR={1e- 4,5e -4}) vsSGD 动量为0.9 (LR={1e-3,5e-3,1e-2,5e-2})。
总共12个超参数设置(参见表4的概述)。使用了一个多边形学习速率调度程序。对于PASCAL，总epoch数设置为60，对于NYUD-v2设置为100。我们考虑了1e-4的权重衰减正则化。任何剩余的超参数都是按照原作品设置的。
在这里插入图片描述

4.2 实验概述

表5概述了NYUD-v2和PASCAL上的结果。MTL架构如表5a和5b所示。可以在依赖同一骨干的架构之间进行直接比较。表5c和5d对任务平衡策略进行了分析。我们从结果中确定了几个趋势。
单任务vs多任务。我们将以编码器和解码器为重点的MTL模型与表5a- 5b中的NYUD-v2和PASCAL上的单任务模型进行了比较。相对于单任务学习，MTL可以提供一些优势，即更小的内存占用、更少的计算次数和更好的性能。然而，很少有模型能够充分发挥这种潜力。例如，JTRL提高了NYUD-v2上分割和深度估计任务的性能，但需要更多的资源。不同的是，在PASCAL上使用MTL基线时，处理效率更高，但性能也会下降。MTI-Net构成本规则的豁免。特别是，除了普通任务外，所有任务的性能都提高了，而计算开销是有限的。注意，在这个特定的情况下，参数和FLOPS的相对增加可以归因于浅层骨干网的使用。
在这里插入图片描述
任务字典的影响。我们通过比较NYUD-v2和PASCAL上的结果来研究任务字典(即大小和多样性)的影响(见表5a和表5b)。在NYUD-v2上，我们考虑了语义分割和深度估计的任务。这对任务是密切相关的[13]，[14]，[17]，因为语义分割和深度估计都揭示了类似的特征的场景，如布局和物体形状或边界。不同的是，PASCAL包含了一个更大、更多样化的任务字典。
在NYUD-v2上，MTL证明了一种联合处理分割和深度估计的有效策略。特别是，大多数MTL模型的性能优于单任务网络集(见表5a)。类似的结果也被报道在其他对相关良好的任务，如深度和光流估计[81]，检测和分类[82]，[83]，检测和分割[2]，[84]。
不同的是，大多数现有的模型都不能超过在PASCAL上的单任务模型(见表5b)。例如，以编码器为中心的方法所报告的改进通常仅限于几个孤立的任务，而其他任务的性能则出现了下降。正如[10]和[18]所指出的那样，联合处理一个庞大而多样的任务字典证明是具有挑战性的。
架构和优化。设计更好的MTL架构的效果与使用更好的任务平衡策略进行了比较(见表5a-5b和表5c-5d)。我们发现，使用更好的MTL架构通常更有助于提高MTL的性能。之前的著作[8]，[18]也有类似的发现。
编码器vs解码器聚焦模型。我们在表5a- 5b中将以编码器为重点的模型与以解码器为重点的NYDU -v2和PASCAL模型进行了比较。首先，我们发现以解码器为中心的架构在多任务性能方面通常优于以编码器为中心的架构。我们认为，每个体系结构范式服务于不同的目的。以编码器为中心的架构旨在通过在编码过程中共享信息来学习更丰富的图像特征表示。解码器专注于通过交叉任务交互反复细化预测来改善密集预测任务。由于交互发生在网络的输出附近，它们允许对常见的交叉任务模式进行更好的对齐，从而大大提高了性能。基于它们的互补行为，我们希望在未来的工作中看到这两种范式的整合。编码器与解码器的整合
其次，我们关注表5a中NYUD-v2上使用相同ResNet-50骨干的编码器和解码器模型。以解码器为重点的模型报告了更高的性能，但消耗了大量的FLOPS。后者是由于在高分辨率尺度上反复预测任务输出。另一方面，除了JTRL之外，以解码器为重点的模型比以编码器为重点的模型占用更小的内存。我们认为以解码器为中心的方法更有效地参数化了任务交互。这可以这样理解。最后一层之前的任务特征根据输出任务的结构被解开。这允许用少量的筛选操作来提取相关的跨任务模式。这种情况与以编码器为中心的方法不同，后者的任务在编码器的中间层共享信息。

4.3 任务架构

我们更详细地研究了MTL架构。第4.3.1节比较了以编码器为中心的架构，而以解码器为中心的架构将在第4.3.2节讨论。

4.3.1 编码器为中心的框架

NYUD-v2。我们在表5a中分析了NYUD-v2上以编码器为重点的方法。MTL基线与单任务网络集的性能相当，同时它减少了参数和FLOPS的数量。此外，我们观察到分割任务的性能提高了(+0.5 IoU)，深度估计任务的性能略有下降(+0.002 rmse)。其他以编码器为中心的架构在多任务性能方面进一步改善了MTL基线，但需要更多的参数和FLOPS。注意，观测到的性能增益幅度相当小。我们的结论是，共享一个ResNet骨干结合强大的任务特定的头单位证明了一个强大的基线，以解决一对紧密相关的密集预测任务，如语义分割和深度估计。
此外，十字绣网络在性能和计算效率方面都优于NDDRCNN模型。这两种模型都采用了类似的设计，单任务网络的特性在多个编码层之间融合(见2.2节)。不同之处在于采用的特征融合机制:NDDR-CNNs采用非线性降维来融合特征，而十字十字网络则选择简单的特征通道线性组合。鉴于NDDR-CNN采用的特征融合方案更为复杂，我们期望NDDR-CNN能够获得更高的性能。然而，在这个实验中却观察到了相反的情况。我们的结论是，使用十字绣网络和NDDR-CNNs的特征融合方案可以受益于进一步的研究。
最后，在NYUD-v2基准测试中，没有哪个以编码器为重点的模型能显著胜过它的竞争对手。因此，在这种情况下，多任务注意网络以其高效的设计和良好的性能似乎是最有利的选择。

帕斯卡。我们在表5b中再次研究了基于编码器的PASCAL数据集方法。与NYUD-v2上的结果相比，与单任务模型相比，MTL基线和MTAN模型报告的性能都较低(−2.86%和−2.39%)。对此有几种可能的解释。首先，我们考虑一个更大的任务字典。[18]和[55]表明，多样化的任务字典更容易产生任务干扰。第二，与NYUD-v2相比，PASCAL数据集包含更多标记的示例。之前的工作[37]观察到，当有更多注释可用时，多任务性能的提高可能会更低。尽管如此，这两种模型都是减少所需资源数量的有用策略。根据性能需求，MTAN模型比MTL基线更受欢迎，反之亦然。
此外，我们观察到十字绣网络和NDDR-CNNs不能处理更大、更多样化的任务字典:当使用这些模型时，性能的改善是可以忽略的，而参数和FLOPS的数量增加。不同的是，MTL基线和MTAN模型能够更好地折衷多任务性能和所需的计算资源。

Hyperparameters。在使用不同的超参数集训练时，我们评估以编码器为中心的模型的性能(见表4)。图10a显示了NYUD-v2上语义分割和深度估计任务的性能概要。使用相同模型，但不同超参数集的实验以相同的颜色显示。我们对所使用的超参数的影响作了一些观察。
在这里插入图片描述
首先，编码器聚焦模型报告的性能提高很大程度上依赖于单任务模型的优化程度。特别地，当使用次优超参数集与最优超参数集训练单任务模型时，MTL性能增益显著增大。我们强调仔细培训MTL中单任务基线的重要性。其次，与单任务模型相比，以编码器为中心的模型对于使用的超参数来说似乎更健壮。更具体地说，当使用一组不太仔细调优的超参数时，与以编码器为中心的MTL模型相比，单任务模型的性能下降得更快。当我们对优化策略重复这个实验时，我们将得出类似的结论。我们认为研究单任务与多任务场景下的超参数鲁棒性将是未来研究的一个有趣方向。最后，与MTL基线和MTAN相比，十字绣网络和NDDR-CNNs的性能超参数依赖性较小。后一对模型在不同的超参数设置中显示了更大的性能差异。
讨论。我们比较了NYUD-v2和PASCAL上的几种以编码器为中心的架构。对于特定的任务对，例如深度估计和语义分割，我们可以通过以编码器为中心的MTL模型来提高整体性能。然而，当考虑一个大的或不同的任务字典时，性能改进仅限于几个孤立的任务。在后一种情况下，MTL仍然提供了一种有用的策略来减少所需的计算资源。值得注意的是，没有一个以编码器为中心的模型始终优于其他架构。相反，一个适当的MTL模型应该根据每个案例来决定，同时也要考虑到可用的计算资源的数量。例如，当性能至关重要时，建议使用十字绣网络，而如果可用资源有限，MTAN模型提供了一个更可行的替代方案。

4.3.2 解码器为中心的框架

NYUD-v2。 NYUD-v2上以解码器为重点的模型的结果见表5a。在NYUD-v2上，所有以单尺度解码器为重点的体系结构都报告了与单任务网络相比的显著进步。PAP-Net实现了最高的多任务性能(+12.10%)，但消耗了大量的FLOPS。这是由于使用任务亲和矩阵，这需要计算图像中每一对像素之间的特征相关性。JTRL(+10.02%)也有类似的改进。JTRL递归地预测这两个任务在越来越大的范围内。因此，对高分辨率的特征图进行大量的滤波操作，导致计算资源增加。与JTRL和PAPNet不同，PAD-Net并没有带来计算量的显著增加。然而，我们仍然观察到相对于单任务网络的较大改进(+7.43%)。
接下来，我们考虑使用多尺度骨干(即HRNet-18)的解码器聚焦架构。同样，PADNet的性能优于单任务网络(+2.38%)，但MTI-Net进一步提高了性能(+8.95%)。我们的结论是，它是有益的提取任务信息在多个尺度，而不是单一的尺度。与单任务网络相比，MTI-Net消耗的参数和FLOPS略多一些。这是由于使用了相当浅的骨干，即HRNet-18，以及少量的任务。因此，与骨干网使用的资源相比，在MTI-Net中添加额外层所引入的开销相对较大。与MTI-Net相比，PAD-Net的人字拖数量大幅增加。这是因为PAD-Net在一个更高规模(1/4)的4·C通道中进行多模式蒸馏，C是单个规模的主干通道数量。相反，MTI-Net在较小的尺度上执行大多数计算(1/32,1/16,1/8)，而在较高的尺度上仅在C通道上运行(1/4)。

帕斯卡。我们在表5b中的PASCAL上分析了以解码器为重点的模型。我们看到，平板网不能处理更大的任务字典。语义边缘预测任务性能较低的原因是在实现的模型中没有使用跳过连接。不同的是，MTINet提高了除普通任务外的所有任务的性能，同时与单任务网络相比，需要更少的flops。在更大的任务字典中一致的发现支持了我们的假设，即在多个尺度上执行多模态蒸馏的重要性(参见NYUD-v2上的多尺度解码器聚焦方法)。
Hyperparameters。图10b显示了NYUD-v2上PAD-Net和MTI-Net的性能概要。我们使用与前面相同的超参数(见表4)。获得的MTL解优于专门训练的单任务模型。此外，PAD-Net和MTI-Net都对超参数变化具有鲁棒性。即使在使用次优超参数训练时，这两个模型仍然比它们的单任务对手表现更好。最后，在单任务和多任务模型中，我们没有观察到超参数鲁棒性的显著差异。与ResNet-50单任务模型相比，HRNet18模型似乎需要较少的超参数调整来处理nyu -v2上的语义分割和深度估计任务。我们观察到HRNet-18模型比ResNet-50模型使用的参数更少。这可以解释为什么训练单任务HRNet18模型更容易。
结论。我们在两个密集标记数据集上比较了几种以解码器为中心的架构。在NYUD-v2上，通过使用一种以解码器为重点的模型，语义分割和深度估计的性能都可以显著提高。然而，PAP- Net和JTRL都导致了大量的计算次数的增加。当我们希望限制计算次数时，MTINet和PAD-Net提供了更可行的替代方案。在PASCAL上，像MTI-Net这样的多尺度方法似乎更适合提高多尺度性能，同时保持较低的计算资源。我们的结论是，解码器聚焦体系结构在MTL问题上取得了令人满意的结果。

4.4 任务均衡

我们将回顾第3.1节中的任务平衡策略。
NYUD-v2。表5c显示了ResNet-50骨干使用不同的任务平衡策略训练MTL基线时的结果。在NYUD-v2上，使用网格搜索程序优化损失权值，得到一个均匀的损失权值方案。因此，在这种情况下，使用固定的均匀权重和使用固定权重从网格中搜索重叠。
与单任务网络相比，具有固定权重的MTL基线得到了改善(∆MTL为+0.41%)。GradNorm可以通过调整训练过程中损失的任务特定权重(+1.45%)进一步提高性能。我们的结论是，当任务使用不同的损失函数时，均匀权值对于训练多任务模型是次优的。
与梯度norm相似，DWA试图平衡任务学习的速度，但不平衡梯度的大小。从表5c我们得出结论，后者也很重要(DWA为−0.28%，GradNorm为+1.45%)。不确定性加权导致与级常值相比性能下降(−0.23% vs 1.45%)。不确定性加权分配一个较小的权重给噪音或困难的任务。由于nyd -v2上的注释没有经过提炼，因此噪音级别相当小。当我们能够获得清晰的地面真相注释时，似乎更好的方法是平衡任务的学习，而不是降低困难任务的权重。此外，MGDA做出了较GradNorm低的表现(+0.02% vs +1.45%)。MGDA只是沿着所有特定任务梯度的共同方向更新权重。结果表明，最好允许共享层中特定于任务的梯度之间存在一些竞争，因为这有助于避免局部极小。
最后，我们得出结论，使用网格搜索优化的固定损失权值仍然优于现有的几种任务平衡方法。特别是，在语义分割和深度估计任务上，使用固定均匀权重得到的解优于使用不确定性权重、MGDA和DWA训练的模型。
帕斯卡。表5d在PASCAL上比较了任务平衡技术。我们发现在权重空间上的网格搜索比使用第3节中介绍的自动任务平衡过程效果更好。[18]也做了类似的观察。我们假设这是由于最优参数之间的不平衡，例如，边缘检测损失的权值比语义分割损失的权值高100倍。不确定性加权报告了蒸馏任务的最高性能损失，即常态和显著性。这是因为不确定性加权给具有更高同方差不确定性的任务分配了更小的权重。不同的是，MGDA无法正确学习边缘检测任务。这是另一个迹象(cf. NYUDv2结果)，它表明仅通过在共享层中沿公共方向反向传播来避免竞争梯度并不一定会提高性能。这对于PASCAL上的边缘检测任务来说尤其如此，原因有两个。首先，与其他任务相比，边缘检测的损失幅度要小得多。其次，当边缘注释被转换成片段时，它们会对图像产生过度分割。因此，边缘检测任务的损失梯度往往与其他任务相冲突，因为它们具有更平滑的梯度。因此，MGDA更倾向于通过分配较小的权值来掩盖边缘检测任务中的梯度。最后，与统一加权相比，GradNorm并没有报告更高的表现。我们假设这是由于优化过程中损失权值的重新归一化。当最优损失量非常不平衡时，后者就不能很好地工作。
Hyperparameters。我们使用图10c中的性能配置文件来分析NYUD-v2上任务均衡方法的超参数敏感性。所使用的超参数与之前定义的相同(见表4)。GradNorm是唯一一种比为每个任务训练单独的模型更有效的技术。然而，当花较少的精力调优单任务模型的超参数时，所有的任务平衡技术都会提高性能。这一观察结果解释了相对于之前的工作[19]、[20]、[22]报告的单任务情况，性能的提高。我们再次强调仔细训练单一任务基线的重要性。

其次，与之前一样，MTL模型对于超参数的变化似乎比单任务网络更稳健。特别是，在MTL情况下，当使用不太优的超参数设置时，性能下降得更慢。最后，固定损耗加权和不确定性加权对超参数变化具有最强的鲁棒性。这些技术报告了大量超参数设置的高性能。例如，在前20%的最佳模型中，有40%的模型接受了不确定性加权训练。
讨论。我们在不同的设置下评估了3.1节的任务平衡策略。并与网格搜索法选择损失权值进行了比较。令人惊讶的是，在我们的案例中，我们发现gridsearch比现有的任务平衡技术更有竞争力，甚至更好。此外，一些技术的表现比预期的要差。Gong等人的[37]获得了与我们相似的结果，尽管只是一些损失平衡策略。此外，Maninis等人[18]发现，执行网格搜索权值可以比最先进的损失平衡方案更有效。基于这些工作和我们自己的发现，我们认为MTL中的优化可以从进一步的研究中受益(另见3.1.6节)。
仍然存在的任务平衡技术可以用于训练MTL网络。在处理大量任务时，在权值空间上进行网格搜索变得非常困难。在这种情况下，我们可以退回到现有的任务平衡技术来设置任务权重。此外，在处理有噪声的标注时，不确定性加权可以帮助自动调整有噪声任务的权重。

4.5 限制

我们对不同的MTL架构和优化策略进行了广泛的比较。这导致了对每组作品的一些重要观察。毫无疑问，这个问题有几个方面不在我们的实验分析范围之内。我们将在下面简要讨论其中的一些限制。
联合架构和优化探索。对体系结构和优化策略进行了正交研究。然而，为了在联合架构优化器空间的层次上构建MTL系统，这两个设计空间之间的相互作用可以进一步检查。
数据影响。任务和训练实例本身在优化过程中起着重要的作用，例如当任务具有较高的同方差不确定性时，不确定性加权可以很好地工作。因此，分析数据的哪些属性对MTL设置最重要将是有用的。例如，这样的分析可以用来调整优化方案以满足特定设置的需要。
Hyperparameter鲁棒性。性能概况显示，结果强烈依赖于所使用的超参数。有趣的是，我们发现一些MTL算法在应对超参数设置的变化时比其他算法更稳健。这种行为可以进一步研究。

5.相关领域

到目前为止，我们将重点放在了MTL的应用上，以便在完全监督的环境下共同解决多个视觉任务。在本节中，我们将从更一般的角度考虑MTL设置，并分析它与几个相关领域的联系。后者可能与MTL设置相结合并加以改进，反之亦然。

5.1 跨域学习

目前所考虑的方法都是用于解决同一视觉域下的多个任务。然而，人们对学习同时表现多个视觉域的表现形式越来越感兴趣。例如，Bilen和V edaldi[85]使用领域特定的尺度参数学习了一种紧凑的多领域表示。这个想法后来被扩展到剩余适配器的使用[86]，[87]。这些工作只探讨了不同分类任务的多领域学习。未来的研究也应该在考虑多个密集预测任务时解决这一问题。

5.2 迁移学习

T迁移学习[88]利用在解决一个任务时获得的知识，并将其应用于处理另一个任务。与MTL不同，迁移学习不考虑同时解决所有的任务。迁移学习和MTL的一个重要问题是视觉任务是否存在关系，即它们是相关的。Ma等人[89]通过多门专家混合模型对MTL网络中的任务关系进行了建模。Zamir等人[90]为任务迁移学习提供了一种分类方法，以量化任务关系。同样，Dwivedi和Roig[63]使用表示相似度分析，通过计算在不同任务上预先训练的模型之间的相关性来获得任务亲和力的度量。vandenende等人[10]然后使用这些任务关系来构建一个分支MTL网络。Standley等人[91]也依赖于任务关系来定义在MTL设置中应该一起学习哪些任务。

5.3 神经架构搜索（NAS）

第4节的实验结果表明，MTL的成功很大程度上取决于适当的网络结构的使用。通常，这样的架构是由人类专家手工制作的。然而，考虑到问题的规模和复杂性，这种手工架构探索很可能超过了人类的设计能力。为了自动构建网络体系结构，文献中提出了神经体系结构搜索(Neural architecture Search, NAS)[92]。然而，大多数现有的NAS工作都局限于特定于任务的模型[93]，[94]，[95]，[96]，[97]。这是可以预料到的，因为使用NAS进行MTL假设层共享必须与层类型、它们的连接性等共同优化，从而导致问题的代价相当高。
为了减轻与NAS相关的沉重计算负担，一些研究建议从一个预先定义的骨干网开始，自动确定一个跨任务层共享方案。例如，Liang等人[98]实现了MTL的进化架构搜索，而其他人则探索了分支MTL网络[9]、[10]、[11]、[12]、路由[66]、随机滤波器分组[57]和特征划分[69]等替代方案。到目前为止，用于MTL的NAS关注的是如何在编码器的任务之间共享特性。我们假设NAS也可以用于发现以解码器为重点的MTL模型。

5.4 其他

MTL也被应用于其他问题。这包括各种领域，如语言[24]，[99]，[100]，音频[101]，视频[102]，[103]和机器人[104]，[105]，以及不同的学习范式，如强化学习[106]，[107]，自我监督学习[108]，半监督学习[109]，[110]和主动学习[111]，[112]。令人惊讶的是，在深度学习时代，很少有人在半监督或主动学习环境下考虑MTL。尽管如此，我们相信这些是未来研究的有趣方向。例如，我们在这里考虑的完全监督的MTL设置的一个主要限制是要求为每个任务注释所有样本。之前的研究[113]表明，如果我们在缺失注释时不采取预防措施，则公式5中的标准更新规则将给出次优结果。为了缓解这一问题，Kim等人[114]提出了一种替代学习方案，每次更新单个任务的网络权值。包含了一个知识提炼术语[115]，以避免丢失其他任务的相关信息。不同的是，Nekrasov等人[113]提出，当注释缺失时，使用来自专家模型的预测作为合成的groundtruth。尽管这些早期的尝试已经显示了令人鼓舞的结果，我们相信这个问题可以从进一步的调查中受益。最后，多任务学习最近被证明可以提高鲁棒性。例如，在[116]中，一种多任务学习策略对对抗性攻击表现出鲁棒性，而[117]发现在MTL中应用跨任务一致性可以改善泛化，并允许域移位检测。

6.结论

在本文中，我们综述了近年来在深度神经网络范围内的MTL方法。首先，我们对MTL的架构和基于优化的策略进行了广泛的概述。对于每种方法，我们描述了其关键方面，讨论了与相关工作的共性和差异，并提出了可能的优缺点。最后，我们对所描述的方法进行了广泛的实验分析，并得出了几个关键的发现。我们在下面总结了我们的一些结论，并提出了一些未来工作的可能性。
首先， MTL的性能很大程度上取决于任务字典。它的大小、任务类型、标签来源等都会影响最终的结果。因此，最好根据具体情况选择合适的架构和优化策略。尽管我们提供了一些具体的观察结果，解释了为什么某些方法在特定的环境下更有效，但MTL通常可以从更深层次的理论理解中受益，从而在每种情况下最大化预期收益。例如，这些增益似乎取决于多个因素，如数据量、任务关系、噪音等。今后的工作应努力分离和分析这些不同因素的影响。
第二，当涉及到使用单一MTL模型处理多个密集预测任务时，目前以解码器为中心的架构在多任务性能方面提供了更多优势，但是与以编码器为中心的架构相比计算量更大。如上所述，这是由于以解码器为重点的体系结构促进的常见交叉任务模式的对齐，这自然非常适合密集预测任务。编码器聚焦架构在密集预测任务设置中仍然提供了某些优势，但其固有的层共享似乎更适合处理多个分类任务。
最后，我们分析了多种任务平衡策略，并分离出最有效的平衡任务学习的因素，如降低噪声任务的权重，平衡任务梯度等。然而，许多优化方面仍然缺乏了解。例如，与最近的研究相反，我们的分析表明，避免任务之间的梯度竞争会损害绩效。此外，我们的研究发现，一些任务平衡策略仍然存在缺陷，并强调了一些现有方法之间的差异。我们希望这项工作能促进对这一问题的进一步研究。