一行代码发一篇 ICML?

来自 | 知乎  作者 | kid丶

连接 | https://zhuanlan.zhihu.com/p/163676138

编辑 | 深度学习这件小事公众号

本文仅作学术交流,如有侵权,请联系后台删除。

这篇文章发自2020年的ICML,脑洞很大,居然只有一行代码?

论文链接:https://arxiv.org/pdf/2002.08709.pdf

上图可以大致描述整篇文章干了一件啥事。先看左边一列,是一个正常的训练过程,对于阶段A,随着training loss的降低,test loss也会跟着降低;但是到阶段B后,我们继续在训练集上训练,会让test loss上升。右边一列是本文提出的 flooding方法,当training loss大于一个阈值(flood level)时,进行正常的梯度下降;当training loss低于阈值时,会反过来进行梯度上升,让training loss保持在一个阈值附近,让模型持续进行“random walk”,并期望模型能被优化到一个平坦的损失区域,这样发现test loss进行了double decent!一个简单的理解是,这和early stop类的方法类似,防止参数被优化到一个不好的极小值出不来。

本文也是十分的“嚣张”,直接在文章introduction部分贴出了pytorch代码,仅仅增加了一行代码,真是好气!整个的损失从   被改成了 

接下来是自己的一些思考,假设我们的损失 一开始如由左图所示,横坐标是参数   ,纵坐标是损失   ,此时有两个极小值点(灰色三角形和红色三角形),首先试问哪一个极小值要好一些(这个后面再做分析)。另外,假设虚线代表   ,那么使用 flooding 方法相当于把低于阈值部分翻上来,二维的情况也类似。可以发现,整个目标多了很多极小值,二维平面的情况则是多了一圈极小值,是否可以说右边的损失要比左边的损失更加“平坦”,然后泛化能力会越好。

接下来是我的一些分析,首先是前面提到的灰色三角形和红色三角形两个极小值点,分别由上述两个损失代替,右边的损失比左边的损失看起来更“平坦”。我们从对抗样本的角度来理解,蓝色的笑脸代表正常被分对的样本,对抗样本是通过优化样本使得损失变大,从而让模型对该样本分错(黄色的难过脸)。直观来看,越平坦的损失会让对抗样本的生成越困难(   越大),因此越平坦的损失会让模型对对抗扰动越鲁棒。

其实,一般的鲁棒性和泛化性也如此,一般的鲁棒性是指模型对样本进行一些诸如高斯模糊、椒盐噪声等等鲁棒。换句话说,对样本进行一定的扰动(   ),模型对扰动后样本的损失不要太大才行,越平坦的损失,一般鲁棒性也会越好。另一方面,泛化性也是一样,模型的预测一般满足相似的输入有相似的输出(假设损失对   光滑),也就是说,模型对样本学到的模式是某种特征左右的样本应该属于为某一类。换句话说,对于一个未见过的样本   (黄色难过脸)和样本   (蓝色笑脸)属于相同类,模型能将其分对的必要条件是损失不要过大,则此时“平坦”的损失能够满足这一条件,且泛化性会越好。

最后我们再来从svm的角度来思考这个问题。对于一个线性可分的二分类问题,有无数条分类面能将其分开,而svm是去挑选能满足“最大间隔”的分类器。从另一个角度来理解是,越平坦的损失,是不是能越尽可能地将不同类给分开,因为样本进行些许扰动,损失的变化不会太大,相当于进行细微扰动后的样本不会跑到分类面的另一边去!

上述的分析存在着一个问题是,横坐标应该是参数   ,而我却一直把横坐标当作   ,但其实认真想想,换成   也好像成立。因为神经网络参数   和   是乘积的形式,对参数   的细微变化能否等价于对样本   的细微变化!

感谢你的分享,点赞,在看三连↓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值