「彩票假说」要修正?王言治团队:神经网络要「中奖」,秘密在于学习率!|ICML 2021...

5daca9393df7c9dcd416e0db369b4264.png


 视学算法报道  

作者:刘宁

编辑:好困

【新智元导读】「彩票假说」指出神经网络可能存在准确率和原始网络相近的子网络。然而,这种中奖特性在许多情况中很难被观测到。最近,王言治教团队发现并揭示了中奖特性的潜在条件和基本原理。

在深度模型压缩领域中,「彩票假说」(Lottery Tickets Hypothesis)指出一个原始神经网络可能存在中奖彩票的子网络(Winning ticket),该子网络可以达到和原始网络相近的准确率。

然而,这种中奖特性(Winning property)在许多情况中很难被观测到。例如,在训练网络过程中,当使用有利于训练的相对较大的学习率时,就很难发现中奖彩票。

近期,由美国东北大学王言治教授研究组与合作组通过对「彩票假说」工作的研究,发现并揭示了中奖特性的潜在条件和基本原理。

e425a06badaa8a40a6ea4c16e557a49e.png

论文链接:https://arxiv.org/pdf/2102.11068.pdf

会议论文链接:http://proceedings.mlr.press/v139/liu21aa.html

该研究发现其本质原因,即当学习率不够大时,初始化权重和最终训练权重之间存在相关性。

因此,中奖特性的存在与神经网络(Deep neural network,DNN)预训练不足有关,并且该特性不太可能发生在训练良好的神经网络中。

为了克服这个限制,该研究提出了「剪枝与微调」的方案,其在相同的剪枝算法和训练时长下始终优于中奖彩票训练的精度。

该研究对不同数据集上的多个深度模型(VGG、ResNet、MobileNet-v2)进行了广泛的实验,以证明所提出方案的有效性。目前,该文章已经被ICML 2021会议收录。

研究背景

神经网络的权重剪枝技术已经被广泛研究和使用,权重剪枝可以有效地去除过度参数化的神经网络中的冗余权重,同时保持网络准确率。

典型的剪枝流程有三个主要阶段。

  1. 训练一个拥有过度参数的原始DNN;

  2. 剪枝掉原始DNN中不重要的权重;

  3. 微调剪枝后的DNN从而恢复准确率。

目前,很多工作都在研究权重剪枝领域的原理与方法。其中有代表性的「彩票假说」[1]工作中表明,在一个使用随机初始化权重的密集网络中,存在一个小的稀疏子网络,当使用与原始密集网络相同的初始权重单独训练这个稀疏子网络时,可以达到与密集网络相似的性能。

这样一个具有初始权重的稀疏子网络被称为中奖网络(Winning ticket)。中奖网络拥有如下特性:

  1. 训练相同随机初始化稀疏子网络71edd64f7238bd1c7da42d617597e78f.pngT轮(或更少)将达到与密集预训练网络2d2342a0c979c3639e26fe6a40fc2560.png相似的准确率。

  2. 训练相同随机初始化稀疏子网络6033d2029dc21bf426a8a0cfdabb23e7.pngT轮和训练重新随机初始化稀疏子网络之间09d2281ff3896b60878f699efd76d9ae.png应该有明显的准确率差距,前者应更高。

在彩票假说工作中发现,在低学习率的情况下可以通过迭代剪枝算法(Iterative pruning)观察到中奖特性,但在较高的初始学习率下,特别是在较深的神经网络中,很难观察到。例如,在初始学习率低至0.0001情况下,「彩票假说」工作在CIFAR-10数据集上的CONV-2/4/6架构确定了中奖网络。

对于CIFAR-10上的ResNet-20和VGG-19等更深的网络,只有在低学习率的情况下才能识别出中奖网络。在较高的学习率下,需要额外的预热训练(Warm up epochs)来找到中奖网络。

在Liu等人的工作「Rethinking the value of pruning」[2]中,它重新审视了「彩票假说」工作,发现在广泛采用的学习率下,中奖彩票与随机重新初始化相比,并没有准确率优势。这就对中奖特性的第二个方面提出了质疑,即训练7dc3630856596b1180c0a1479f7d7868.png和训练93db907047311a39923bc50d16d3a108.png之间的精度差距。

此外,接下来Frankle等人的工作「Stabilizing the lottery ticket hypothesis」[3]提出了迭代剪枝与回倒的方式从而稳定识别中奖网络。

在本工作中,作者研究了中奖特性背后的基本条件和原理。并在各种代表性的神经网络和数据集上进行大量实验,重新审视了「彩票假说」工作,证实了只有在低学习率下才存在中奖特性。事实上,这样的「低学习率」已经明显偏离了标准学习率,并导致预训练的DNN的准确率明显下降。

通过引入提出的相关性指标进行定量分析,作者发现,当学习率不够大时,潜在的原因主要归因于初始化权重和最终训练的权重之间的相关性。

c850707ab3da03f3e663f93b144360b0.png

图1 不同训练阶段的表示方法示意图:包括预训练、剪枝(剪枝掩码生成)、稀疏训练以及「剪枝与微调」

神经网络权重相关性角度的分析

本工作在各种DNN架构和CIFAR-10和CIFAR-100数据集上重新审视了「彩票假说」工作的实验,包括VGG-11、ResNet-20和MobileNet-V2。作者的目的是研究中奖特性存在的精确条件。

dd3786548b5ac78ea57ca32249aca81f.png

图2 CIFAR-10数据集上的ResNet-20网络在学习率为0.01和0.1时的随机重新初始化和「中奖网络」的展示

以ResNet-20的CIFAR-10数据集上为例,在初始学习率为0.01的情况下,预训练的DNN的准确率为89.62%。在不同的稀疏率下,「中奖网络」的表现持续优于随机重初始化。在稀疏率为62%时,它达到了最高的准确率90.04%(高于预训练的DNN)。这与「彩票假说」工作在同一网络和数据集上发现的观察结果相似。

另一方面,在初始学习率为0.1的情况下,预训练的DNN的准确率为91.7%。在这种情况下,「中奖网络」的准确率与随机重新初始化相似,在有意义的稀疏率下(例如50%或以上),无法达到接近预训练的DNN的准确率。因此,没有满足中奖特性。

从这些实验来看,在低学习率的情况下,中奖特性存在,但在相对较高的学习率下很难发现,这在「Rethinking the value of pruning」[2]工作中也观察到类似现象。

然而,需要指出的是,相对较高的学习率0.1(实际上是这些数据集的标准学习率)导致预训练的DNN的准确率明显高于低学习率(91.7%对89.6%)。

在「彩票假说」的设置中,在学习率为0.1的情况下,其稀疏训练的结果(「中奖网络」,随机重新初始化)也是相对较高。这一点在之前的相关讨论中是缺失的。

现在的关键问题是:上述两个观察结果是相关的吗?如果答案是肯定的,这意味着中奖特性对DNN来说并不普遍,也不是DNN本身或者相关应用的自然特性。相反,它表明当学习率不够大时,原始的预训练DNN没有得到很好的训练。

作者的假设是上述观察结果是相关的,这主要归因于当学习率不够大时,初始化的权重和最终训练的权重之间存在相关性。在验证假设之前,作者将引入一个相关性指标(correlation indicator,CI)进行定量分析。

75676770581da611c8d4c2e4f22219da.png

图3 CIFAR-10上的ResNet-20在学习率为0.01和0.1时的随机重新初始化和「中奖网络」的说明

定义相关性指标用来量化两组权重013c413fb74de196282adbf997efdd8e.pngf41f3ecef719c780ebffe1cd55ad41bf.png之间的最大幅值的部分权重的位置的重叠度。具体公式如下:

e47f64d61f8481ec2ae217978bf06da0.png

权重的相关性意味着如果一个权重的幅值在初始化时就大,那么它在训练后也是大的。

产生这种相关性的原因是学习率太低,权重更新太慢。这种权重的相关性对于神经网络训练来说是不可取的,通常会导致较低的准确率,在一个良好训练的神经网络中,权重的幅值应该更多地取决于这些权重的位置而不是初始化。

因此当权重的相关性很强时,神经网络的准确率将会变低,也就是说,没有经过良好的训练。

076ef539f9acd5123dc63577b85f4dce.png

图4 在学习率为0.01和0.1时,初始权重和预训练权重之间的重叠率(当p=10%、20%、30%、40%和50%时)

为了验证上述说法,作者进行了实验,以不同的初始学习率得出神经网络预训练的相关性指标918cf18cc1b0ef4e76f55d8871a8b5f9.png

以CIFAR-10数据集上的ResNet-20为例进行说明。图4展示了在学习率分别为0.01和0.1时,初始权重16b05b21927f50ab142a6b97225cd4e7.png和来自神经网络预训练的权重的相关指标。与学习率为0.1的情况相比,学习率为0.01时相关性指标明显较高。

这一观察表明,在学习率为0.01的情况下,6c343fbfcc0f273e65827ba65d3390b4.png的较大幅值的权重没有被完全更新,说明预训练的神经网络没有被很好地训练更新。

在学习率为0.1的情况下,权重被充分更新,因此在很大程度上不依赖于初始权重(3a77adb890266d93a01b40dd21a290ee.png,其中p = 10%, 20%, 30%, 40%, 50%),表明神经网络得到良好的充分训练。

8a56abe12db675513eef14093e865856.png

图5 (a),(b):在不同的稀疏率下,「剪枝与微调」726b854b127ca684bbc8886aeebbda4e.png通过迭代剪枝算法产生的掩码的准确度。(c),(d):p =0.2时,在0.3、0.5、0.7稀疏度比下,「中奖网络」的权重8244a879cf82385b91bdf7a2a543aa4e.png和「剪枝与微调」的权重9ab42f1a2eb6361d5dca46cd167bc241.png,以及重新随机初始化权重b04d189b3d83f8877efc5b8caf2beb75.png和「剪枝与微调」的权重29f97b1a1c8535b37920d5301961f62b.png之间的权重相关性(重叠率)比较。

中奖特性的原因和条件

当学习率较低时,训练「中奖网络」和随机重新初始化网络的准确率不同,作者试图从这点出发,从而揭示出中奖属性的原因和条件。作者通过研究权重的相关性来实现这一目标。

作者尝试了「剪枝与微调」的方式,即对来自原始预训练网络的权重应用掩码,然后对其进行T轮微调。最终的权重表示成f2e6fb2e3154b5cc27cca65ebb8bcb58.png。以CIFAR-10上的ResNet-20为例进行说明。从图5(a)和5(b)可以看到,1e8ec152d90522d63dd900fc3b280a53.png实现了相对较高的准确率,接近或高于相同学习率下的预训练DNN的准确率。

作者还研究了1626a301e06facd09652081fd6835a8f.png02eae679c1cc84361b6a7cc407767d67.png6b4d2d2c9a1c3d075f6f3fb21ae34ce4.png之间的相关性,以便对中奖特性的原因有所了解。从图5(c)和5(d)可以观察到,在低学习率下,4af9e34e0fce1c048bbe59aca9cd24a4.pngcf034f287d1bfb4ae06ec7d441904dd3.png之间存在较强相关性,这时存在中奖特性。在其他情况下,这种相关性很小或是没有。

结论是,中奖特性的一个关键条件是b56702d53ca5a36a229f0b533dec9258.pngb6bf42378471e871bd419896a514ec5b.png之间的相关性。

剪枝与微调——在稀疏情况下恢复准确率的更好方式

5b323a5cc8b248760fcee183d60c9e96.png

图6 「剪枝与微调」的精度表现与两种稀疏训练方案的比较(「中奖网络」和随机重新初始化)

图6展示了使用三种剪枝算法生成掩码:(a)迭代剪枝,(b)基于ADMM的剪枝,以及(c)一次性剪枝。

为了更好地克服「彩票假说」工作中稀疏训练的不足,作者提出「剪枝与微调」的方式。 作者以CIFAR-10数据集上的ResNet-20为例进行说明。这里使用理想的学习率0.1。

从图6可以清楚地观察到「剪枝与微调」与两个稀疏训练方案之间的精度差距。事实上,「剪枝与微调」方案可以持续超越预训练的原始密集神经网络,其稀疏率可高达70%。同样,两个稀疏训练方案之间没有准确率差异。

a12ceb313358e984546f078e0b345cd2.png

图7 在三种剪枝算法(迭代剪枝、基于ADMM的剪枝和一次性剪枝)进行掩码生成下,「剪枝与微调」以及稀疏训练(「中奖网络」方案)的准确率表现。

图7结合了上述结果,展示了三种剪枝算法下的「剪枝与微调」以及稀疏训练(「中奖网络」方案)的准确率。可以观察到准确率的大小顺序:基于ADMM的剪枝最高,迭代剪枝在中间,一次性剪枝在最低。这个顺序对于「剪枝与微调」以及稀疏训练也是一样的。

在这里剪枝算法仅用来生成掩码。因此,相对准确率差异归因于生成不同的掩码的质量。可以得出结论,剪枝算法的选择在生成稀疏子网络中至关重要,因为生成的掩码的质量在这里起着关键作用。

结语

在这项工作中,作者研究了彩票假说中中奖特性背后的基本条件和原理。引入了一个相关指标进行定量分析。在不同的数据集上对多个深度模型进行了广泛的实验,证明了中奖特性的存在与神经网络预训练不足有关,对于充分训练的神经网络来说不太可能发生。

同时,「彩票假说」工作中的稀疏训练设置很难恢复预训练的密集神经网络的准确率。为了克服这一局限性,作者提出了「剪枝与微调」的方式,该方式在相同的剪枝算法和总的训练时长下,在不同的数据集上对不同的神经网络均优于「彩票假说」工作设置的稀疏训练。

作者简介

论文第一作者刘宁,博士毕业于美国东北大学计算机工程系,博士生导师为王言治教授。现任职美的资深研究员。

袁赓,美国东北大学计算机工程系博士在读生,导师为王言治教授。

参考资料:

[1] Frankle, J. and Carbin, M. The lottery ticket hypothesis: Finding sparse, trainable neural networks. 

[2] Liu, Z., Sun, M., Zhou, T., Huang, G., and Darrell, T. Rethinking the value of network pruning. 

[3] Frankle, J., Dziugaite, G. K., Roy, D. M., and Carbin, M. Stabilizing the lottery ticket hypothesis.

fc5bc62e3b47e47d3d1d59eeab99aeae.png

outside_default.png

点个在看 paper不断!

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值