原文:Grill, Jean-Bastien et al. “Bootstrap Your Own Latent: A New Approach to Self-Supervised Learning.” ArXiv abs/2006.07733 (2020).
源码:https://github.com/deepmind/deepmind-research/tree/master/byol
我们介绍了一种新的自监督图像表示学习方法BYOL。BYOL依赖于两个神经网络,分别是在线网络和目标网络,它们相互作用并相互学习。从图像的增强视图出发,我们训练在线网络来预测同一图像在不同增强视图下的目标网络的表示。同时,我们用在线网络的缓慢移动平均值来更新目标网络。BYOL在没有负样本对的情况下达到了SOTA水平。在ImageNet数据集上,BYOL采用ResNet-50的Top-1线性分类精度为74.3%,采用更大的ResNet的精度可以达到79.6%。BYOL在迁移学习和半监督学习上的表现与当前的SOTA水平相当,甚至更好。
*注:本文的实验数据非常详细,对于想要训练自己模型的人来说具有重要参考价值。
图1:BYOL与其他无监督和有监督基线的比较。
★ 背景知识
★ 模型方法
BYOL的目标是学习图像表示yθ,然后将其用于下游任务。如图2和图8所示,BYOL使用两个神经网络进行学习,即在线网络和目标网络。在线网络由一组权重值θ定义,包含三个部分:编码器fθ、Projector gθ和预测器qθ。目标网络与在线网络具有相同的架构,但使用不同的权重集ξ。目标网络为在线网络的训练提供回归目标,它的参数是在线网络参数的指数移动平均值。BYOL旨在使qθ(zθ)和sg(z'ξ)之间的相似度损失最小化,其中θ为训练权重值,ξ为θ的指数移动平均值,sg为停止梯度。训练结束时,除编码器fθ之外的所有东西都被丢弃,yθ被用作图像表示。
图2:BYOL的架构。
图8:BYOL的架构示例。
算法1:BYOL的伪代码。
★ 实验结果
表1:BYOL和其他模型在ImageNet线性评估下的Top-1和Top-5精度。
表2:BYOL和其他模型使用一小部分(1%或10%)的ImageNet标签进行小样本半监督训练的结果。
表3:BYOL和其他模型采用标准ResNet-50架构的迁移学习结果。
表4:将BYOL的表示迁移到语义分割、目标检测等其他视觉任务的结果。
图3:BYOL和SimCLR在ImageNet线性评估下的Top-1精度的下降趋势。
表5:在ImageNet上进行线性评估时的消融研究。
表6:用于生成增强图像的参数。
表7:在不同的ResNet架构上,将空间增强替换为预训练增强,或将线性分类器正则化对精度的影响。
图4:BYOL和SimCLR使用部分ImageNet标签进行半监督训练的结果。
表8:在ResNet-50上使用ImageNet全集进行半监督训练的精度。我们也报告了其他有监督方法的结果,进行广泛的比较。
图5:使用BYOL预训练的多个ResNet架构在不同比例的ImageNet标签上进行半监督训练的精度。
表9:在ImageNet上使用更大的编码器对BYOL进行线性评估的结果。
图6:BYOL与使用各种ResNet架构的有监督基线的比较。
表10:用于迁移学习的图像数据集的特性。
表11:BYOL和其他模型在语义分割、目标检测任务上的迁移结果。
表12:BYOL和其他模型在NYU v2深度估计任务上的迁移结果。
表13:BYOL和SimCLR的迁移学习结果。
表14:模型架构设置对精度的影响。
表15:学习率和权重衰减对精度的影响。
表16:批量大小对精度的影响。
表17:图像变换的消融研究。
表18:使用预测器和目标网络时,权重值β和温度值α对精度的影响。
表19:BYOL和SimCLR之间的中间变量对精度的影响。
图7:归一化对网络输出的L2范数的影响。
表20:损失中不同归一化方法对精度的影响。
表21:当移除缓慢移动的目标网络,直接将在线网络的权重硬拷贝到目标网络,并对预测器的学习率应用乘数λ时的Top-1精度。
表22:当移除缓慢移动的目标网络,直接将在线网络的权重硬拷贝到目标网络,并对Projector的学习率应用乘数μ,对预测器的学习率应用乘数λ时的Top-1精度。为了成功移除目标网络,预测器的学习率需要高于Projector的学习率。这进一步表明,预测器的学习动态对BYOL的稳定性至关重要。
★ 总结讨论
我们介绍了BYOL,一种新的图像表示自监督学习算法。BYOL通过预测其输出的先前版本来学习图像表示,而不使用负样本对。我们展示了BYOL在各种基准上取得的SOTA结果。特别地,BYOL采用ResNet-50在ImageNet线性评估下取得了新的SOTA结果,并弥合了自监督方法和监督学习基线之间的大部分剩余差距。BYOL使用ResNet-200达到了79.6%的Top-1精度,高于之前的SOTA水平(76.8%),同时使用的参数减少了30%。
然而,BYOL仍然依赖于特定于视觉应用的现有增强集。如将BYOL泛化到其他模态(如音频、视频、文本等),有必要为每个模态获得类似的、合适的数据增强。设计这样的增强可能需要大量的努力和专业知识。因此,自动搜索这些增强是将BYOL泛化到其他模态的重要的下一步工作。
更广泛的影响。本研究属于无监督学习领域。这项工作可能会激发新的算法、理论和实验研究。这里介绍的算法可用于许多不同的视觉应用,特定的应用可能会产生积极或消极的影响。此外,由于视觉数据集可能存在偏见,BYOL学习的表示可能容易复制这些偏见。
多模态人工智能
为人类文明进步而努力奋斗^_^↑
欢迎关注“多模态人工智能”公众号,虎年大吉^_^↑