模型参数初始化

AI强仔

已于 2022-02-08 21:27:02 修改

阅读量886

点赞数 1

分类专栏：神经网络文章标签：神经网络深度学习

于 2022-02-08 18:33:53 首次发布

原文链接：https://kexue.fm/archives/8620

版权

神经网络专栏收录该内容

24 篇文章

订阅专栏

在一般的教程中，推导初始化方法的思想是尽量让输入输出具有同样的均值和方差，通常会假设输入是均值为0、方差为1的随机向量，然后试图让输出的均值为0、方差为1。不过，笔者认为这其实是没有必要的，而且对于某些非负的激活函数来说，根本就做不到均值为0。事实上，只要每层的输入输出的二阶（原点）矩能稳定在适当的范围内，那么在反向传播的时候，模型每层的梯度也都保持在原点的一定范围中，不会爆炸也不会消失，所以这个模型基本上就可以稳定训练。

各种Normalization方法也是防止梯度无法学习的，如Batch Normalization、Instance Normalization、Layer Normalization等，这类方法直接计算当前数据的均值方差来将输出结果标准化，而不用事先估计积分，有时候我们也称其为“归一化”。这三种标准化方法大体上都是类似的，除了Batch Normalization多了一步滑动平均预测用的均值方差外，它们只不过是标准化的维度不一样，比如NLP尤其是Transformer模型用得比较多就是Layer Normalization。

苏剑林. (Aug. 17, 2021). 《浅谈Transformer的初始化、参数化与标准化》[Blog post]. Retrieved from https://kexue.fm/archives/8620

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。