Beyond neural scaling laws: beating power law scaling via data pruning-CSDN博客

本文链接：https://blog.csdn.net/weixin_49171105/article/details/128244561

在这里，我们专注于误差随数据集大小的缩放，并展示了如何在理论和实践中突破幂律缩放并将其减少到指数缩放，而不是如果我们有机会获得高质量的数据修剪指标，该指标对应该丢弃训练示例以实现任何修剪数据集大小的顺序进行排序。
然后，我们用修剪后的数据集大小经验地测试了这种新的指数缩放预测，并且确实观察到在CIFAR10、SVHN和ImageNet上训练的ResNets上比幂律缩放性能更好。
鉴于寻找高质量修剪指标的重要性，我们在ImageNet上对十种不同的数据修剪指标进行了首次大规模的基准测试研究。我们发现，大多数现有的高性能指标在ImageNet上的伸缩性很差，而最好的指标是计算密集型的，并且需要为每张图像贴上标签。
因此，我们开发了一种新的简单、廉价且可扩展的自监督修剪指标，该指标显示出与最佳监督指标相当的性能。总的来说，我们的工作表明，发现良好的数据修剪指标可能为大幅改进神经比例定律提供一条可行的道路，从而降低现代深度学习的资源成本。

文章主要贡献：

利用统计力学，我们开发了一种新的数据修剪分析理论，用于感知器学习的学生-教师设置，其中示例根据其教师裕度进行修剪，大(小)裕度对应于简单(硬)示例。我们的理论在定量上与数值实验相匹配，并揭示了两个惊人的预测：(a)最佳修剪策略取决于初始数据的数量;对于丰富(稀缺)的初始数据，应该只保留难(简单)的示例。(b)如果选择一个增加的帕累托最优剪枝分数作为初始数据集大小的函数，那么对于剪枝数据集大小，指数缩放是可能的。
我们表明，这两个从理论中得出的惊人的预测在更一般的情况下也适用于实践。事实上，我们通过经验证明了在SVHN、CIFAR-10和ImageNet上从头训练的ResNets以及在CIFAR-10上微调的Vision transformer的数据集大小方面，误差的指数缩放特征。
基于为数据修剪找到高质量指标的重要性，我们在ImageNet上对10种不同的数据修剪指标进行了大规模的基准测试研究，发现除了最密集的计算指标外，大多数指标表现不佳。
我们利用自监督学习(SSL)开发了一种新的、廉价的无监督数据修剪指标，与以前的指标不同，它不需要标签。我们表明，这种无监督指标的表现与需要标签和更多计算的最佳监督修剪指标相当。

修剪的理论分析：

model parameters：N

number of trainingexamples：P

计算量 amount of compute：C

幂律指数：v

一个有P个样本的训练数据集 $\left \{ X^{\mu},y^{\mu} \right \}_{\mu = 1,...,P}$ , $X^\mu$ 是独立同分布的零均方误差的随机高斯分布
$y^\mu$ $=sign(T,X^\mu)$ 是由teacher感知器生成的标签，

本文考虑在高位统计极限下工作， $N,P\rightarrow \infty$ ,总训练样本数和参数的比值 $\alpha_{tot}=\frac{P}{N}$ 仍为O(1).

考虑文献8.9中的剪枝算法

在训练数据上训练一个探针学生感知器，训练很少时间，得到权重 $J_{prob}$
计算每个训练样本的裕度 $m^\mu=J_{prob}\cdot(y^\mu X^\mu)$ ,大的边距对应于难的样本
构造一个大小为 $P_{prune}=fP$ 的修剪数据集，f：保留样本的百分比来保留难的样本
在较小的数据集上训练一个新的感知器，以较小的样本与参数之比 $\alpha_{prune}=\frac{P_{prune}}{N}$ 完成

本文理论的重点在于：

最终感知器的误差 $\varepsilon$ 作为 $\alpha_{tot}, f$ 的函数
探针学生 $J_{prob} \:and \:teacher\: T$ 之间的角度 $\theta$

将 $J_{prob}$ 做为一个随机的高斯变量，条件是夹角 $\theta$ 和老师T

最好的剪枝策略取决于初始数据量：

对于小 $\alpha$ 修剪来说，保留最难的样本比随机修剪的效果更差

对于大 $\alpha$ 修剪来说，保留最难的样本比随机修剪效果好的多

结果表明：当 $\alpha_{tot}$ 较小时，保留最简单的具有最大边缘的样本，以避免过拟合，

当 $\alpha_{tot}$ 较大时，保留最小裕度的最难样本 $\alpha_{prune}$

最优策略之间的转换在保留的数据的一小部分f中变得更加清晰，这种最优剪枝策略之间的过渡可以被视为更一般设置下的预测

Pareto最优数据修剪优于幂律缩放：

我们理论的第二个预测是，当 $\alpha_{tot}$ 增加时(即图1A中不变的颜色曲线)，当最难的例子的f保持固定分数时，误差最初在 $\alpha_{prune}$ = f $\alpha_{tot}$ 中呈指数下降，但随后在所有固定f中稳定为通用幂律ε∝ $\alpha^{-1}$ 剪枝。
因此，在一个固定的f下，数据修剪没有渐近优势。
然而，当给定更多的初始数据(更大的 $\alpha_{tot}$ )时，通过更积极地修剪(更小的f)，可以实现Pareto最优测试误差作为修剪数据集大小的函数α修剪，显著地追踪出至少一个指数缩放定律(图1C，红色曲线)。
事实上，我们的理论预测每个α剪枝在 $\alpha_{tot}$ 和f中有一个Pareto最优点(服从 $\alpha_{prune}$ = f $\alpha_{tot}$ )，为每个固定的α剪枝产生一个最优fopt。
注意，fopt随 $\alpha_{prune}$ 的增加而减少，这表明需要对较大 $\alpha_{prune}$ 的原始数据集进行更积极的修剪(更小的fopt)，才能获得较大 $\alpha_{prune}$ 的Pareto最优修剪数据集。

击败幂律尺度:信息理论的视角:

经典随机选择的数据产生较慢的幂律误差缩放，因为每个额外的训练示例提供的关于正确决策边界的新信息比前一个示例更少。
更正式地说，设S( $\alpha_{tot}$ )表示与大小为 $\alpha_{tot}$ 的训练集一致的学生感知器权重的后验分布的典型熵。
信息增益I( $\alpha_{tot}$ )由于额外的例子超出 $\alpha_{tot}$ ，可以定义为后值熵减少的速率:I( $\alpha_{tot}$ ) =−d $\alpha_{tot}$ S( $\alpha_{tot}$ )。
在经典感知器学习中，I( $\alpha_{tot}$ )在 $\alpha_{tot}$ 中以幂律衰减为零，反映了每一个新示例的信息量消失，导致测试误差ε∝ $\alpha^{-1}_{tot}$ 的幂律衰减缓慢。
然而，数据修剪可以通过修剪掉无信息的示例来增加每个示例获得的信息。为了证明这一点，我们将大小为 $\alpha_{tot}$ 的随机数据集的后验熵S和信息增益I的复制计算推广到大小为 $\alpha_{prune}$ 的剪枝数据集。然而，通过更积极地修剪(更小的f)较大 $\alpha_{tot}$ 的数据集，I( $\alpha_{prune}$ )可以收敛到一个有限值I(∞)= 1 nat/example，导致更大的修剪数据集只添加有用的非冗余信息。
由于在Pareto最优数据修剪下的每个新示例传递了关于目标决策边界的有限信息，测试误差可以在修剪数据集大小中至少以指数方式衰减，

一个不完美的修剪度量产生了从指数到幂律缩放的交叉

事实上，在任何给定的非零 $\theta$ 下，我们的理论表明，当 $\alpha_{tot}$ 变大时，通过保留小于所有可用数据的最小分数 $f_{min}(\theta)$ ,无法进一步降低预测误差，当θ趋于0时，fmin(θ)趋于0，这表明可以非常积极地修剪任意小的f，同时仍然提高性能，导致图2B中任意大的α修剪至少具有指数级缩放。
然而，对于非零θ， f < fmin(θ)大α剪枝缺乏改善，导致积极修剪无效。
这个结果强调了用θ≈0找到高质量修剪指标的重要性。
当修剪数据集大小α剪枝增加时，这样的度量可以延迟从指数到幂律缩放的交叉，通过使非常小的f非常有效的积极剪枝。

数据剪枝在实际应用中优于幂律标度法

我们的感知器数据修剪理论做出了三个惊人的预测，:

(1)相对于随机数据修剪，当初始数据集大小较大时，只保留最难的示例应该是有帮助的，但当数据集大小较小时则会受到伤害;
(2)通过保留最难示例的固定分数f的数据修剪应该产生幂律缩放，随着初始数据集大小的增加，指数与随机修剪的指数相等;
(3)通过在更大的初始数据集大小上进行更积极的修剪，在初始数据集大小上对初始数据集大小和保留的数据比例进行优化的测试误差可以追踪到一个帕累托最优下包络，该下包络可以击败测试误差的幂律缩放作为修剪数据集大小的函数。

数据剪枝改进了迁移学习。

我们研究了数据修剪是否可以有效地减少微调数据量和预训练数据量。
为此，我们首先分析了在ImageNet21K上预训练的视觉转换器(ViT)，然后对cifa -10的不同修剪子集进行微调。
有趣的是，预训练的模型允许更激进的数据修剪;
仅对10%的CIFAR-10进行微调可以匹配或超过对所有CIFAR-10进行微调所获得的性能(图4A)。
通过在ImageNet1K的不同修剪子集上预训练resnet50来检查修剪预训练数据的有效性，然后在所有ciremote -10上对它们进行微调。表明，在50%的ImageNet上进行预训练可以达到或超过在所有ImageNet上进行预训练获得的CIFAR-10性能。因此，有趣的是，在上游任务上修剪预训练数据仍然可以在不同的下游任务上保持高性能。总的来说，这些结果证明了数据修剪在迁移学习中用于预训练和微调阶段的前景。

在ImageNe上对监督修剪指标进行基准测试

我们首先通过计算每对指标之间的斯皮尔曼排名相关性(图5A)来询问由不同指标引起的排名的一致性如何。有趣的是，我们发现指标之间存在很大的差异，尽管有些指标(EL2N, DDD和记忆)相当相似，排名相关性超过0.7。然而，我们观察到指标之间的显著性能差异:图5BC显示了当每个指标下最困难的示例的f部分保留在训练集中时的测试性能。
尽管这些指标在较小的数据集上取得了成功，但当选择一个显著较小的训练子集(即大约80%的ImageNet)时，只有少数指标仍然与在完整数据集上训练获得的性能相匹配。
尽管如此，大多数指标继续击败随机修剪，特别是记忆表现出强大的性能(图5C)。
我们发现，所有修剪指标都放大了类别不平衡，从而导致性能下降。
为了解决这个问题，我们对所有ImageNet实验使用了一个简单的50%的类平衡比例。

Self-supervised data pruning through a prototypicality metric

为了计算ImageNet的自监督修剪度量，我们在ImageNet预训练的自监督模型的嵌入空间中执行k-均值聚类，并通过到其最近的聚类质心或原型的距离定义每个数据点的难度。因此，简单(困难)的例子是最(最)典型的。
我们发现我们的自监督原型度量匹配或超过了最佳监督度量(记忆)的性能，直到只保留了70%的数据，尽管我们的度量不使用标签，并且比许多先前提出的监督度量更简单，计算成本更低。

自监督原型度量的一个重要选择是簇的数量k。我们发现，令人放心的是，我们的结果对这个选择是可靠的:k可以比真实的类数量多或少偏离一个数量级(即对于ImageNet为1000)，而不会影响性能(App. E)。为了更好地理解各种度量下的示例难度，我们为我们的自监督原型度量和一个类的记忆度量可视化了极值图像(图6B,C)。
从定性上讲，简单的例子对应于高度相似的冗余图像，而困难的例子看起来像特殊的异常值。