恒源云(GPUSHARE)_社区产出大拿的论文小记(Flooding-X)

置顶

AI酱油君

已于 2022-02-23 15:37:16 修改

阅读量128

点赞数

分类专栏：深度学习 AI行业新思文章标签：深度学习计算机视觉机器学习

于 2022-02-08 19:12:00 首次发布

本文链接：https://blog.csdn.net/weixin_53977063/article/details/122828968

版权

文章来源 | 恒源云社区

原文地址 | Flooding-X: 超参数无关的 Flooding 方法

原文作者 | Mathor

所谓大佬，就是只要你肯挖，总有你不知道的知识点在某个地方等着你来学习！
往下看，这不就来了吗！

正文开始：

ICML2020的论文《Do We Need Zero Training Loss After Achieving Zero Training Error?》提出了一种Flooding方法，用于缓解模型过拟合，详情可以看我的文章《我们真的需要把训练集的损失降到零吗？》。这里简单过一下，论文提出了一个超参数 $b$ ，并将损失函数改写为

其中， $b$ 是预先设定的阈值，当 $\mathcal{L}(\boldsymbol\theta)$ > $b$ 时 $\tilde{\mathcal{L}}(\boldsymbol\theta)=\mathcal{L}(\boldsymbol\theta)$ ，这时就是执行普通的梯度下降；而 $\mathcal{L}(\boldsymbol\theta)$ < $b$ 时 $\tilde{\mathcal{L}}{(\boldsymbol\theta)}$ =2 $b$ - $\mathcal{L}(\boldsymbol\theta)$ ，注意到损失函数变号了，所以这时候是梯度上升。因此，总的来说就是以 $b$ 为阈值，低于阈值时反而希望损失函数变大。论文把这个改动称为Flooding

这样做有什么效果呢？论文显示，在某些任务中，训练集的损失函数经过这样处理后，验证集的损失能出现 “二次下降（Double Descent）”，如下图

我们可以假设梯度先下降一步后上升一步，学习率为 $\varepsilon$ ，通过泰勒展开可以得到

其中， $\boldsymbol{\theta}_{n}$ 表示第 $n$ 次迭代的参数， $g(\boldsymbol{\theta}_{n-1})=\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta}_{n-1})$ 表示损失对参数 $\boldsymbol{\theta}_{n-1}$ 的梯度。式(2)的结果相当于以 $\frac{\varepsilon^2}{2}$ 为学习率、损失函数为梯度惩罚 $|g(\boldsymbol{\theta})||^2=||\nabla_{\boldsymbol{\theta}}\mathcal{L}(\boldsymbol{\theta})||^2∣$ 的梯度下降

详细的推导过程见《我们真的需要把训练集的损失降到零吗？》

最低0.47元/天解锁文章

AI酱油君

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
恒源云(GPUSHARE)_社区产出大拿的论文小记(Flooding-X)

文章来源 | 恒源云社区原文地址 | Flooding-X: 超参数无关的 Flooding 方法原文作者 | Mathor所谓大佬，就是只要你肯挖，总有你不知道的知识点在某个地方等着你来学习！往下看，这不就来了吗！正文开始：ICML2020的论文《Do We Need Zero Training Loss After Achieving Zero Training Error?》提出了一种Flooding方法，用于缓解模型过拟合，详情可以看我的文章《我们真的需要把训练集的损失降到零吗？》。这
复制链接

扫一扫