YOLO入门学习笔记之参数初始化

机器学习真有趣

已于 2024-05-06 20:52:42 修改

阅读量342

点赞数 14

文章标签： YOLO 学习笔记

于 2024-05-06 20:52:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45291619/article/details/138505948

版权

本文介绍了神经元参数初始化的重要性和不同方法，如正态分布(解决对称现象)、均匀分布、Xavier初始化(适合tanh)和Kaiming初始化(针对ReLU)，这些方法旨在控制梯度，提高神经网络训练稳定性。

摘要由CSDN通过智能技术生成

1.引言

给定一个神经元，假设输入有三个，为了方便讨论，我们忽略截距b。

参数w的值如何选择？

都等于0？将会导致对称现象。

怎么解决：需要在参数初始化的时候增加一些随机性。

二、正态分布初始化

例如在均值为0，方差为1的正态分布随机采样。Var为求方差。

为了简化后面的理解：假设x1,x2,x3等于1。此时：y=w1+w2+w3

Var(y)=Var(w1)+Var(w2)+Var(w3)=3

意味着输入经过神经元之后输出的离散程度为根号下3倍。如果神经元不只三个输入，n个输入离散程度将会为根号n倍。

在不使用激活函数的情况下，放大的y值就会被累积在反向传播的过程里，造成梯度爆炸。如果使用tanh函数作为激活函数，可能会因为y值过大或过小造成梯度消失。

为了让神经网络训练过程稳定下来，我们需要让y的方差落在一个可控的范围内，例如让他等于1。

Var(y)=nVar(wi)=1

Var(wi)=1/n

同时考虑输入的维度加上下一层的神经元的数量，平均之后则有方差：

则有正态分布初始化

三、均匀分布初始化

概念：

为了保证采样的均值为0，我们改写成-a到a的均匀分布

将目标方差代入公式得出：

上述两个初始化是2010年提出的Xavier初始化方法，在缓解爆炸和梯度消失都有不错的效果。这种方法对于双曲正切函数效果很好。但对于Relu函数来说不尽人意。

四、kaiming初始化（2015）

应对Relu函数的初始化方法。

正态分布初始化：

均值分布初始化：

五、总结

参数初始化方法可以减缓梯度爆炸和梯度消失问题，可以让我们训练层数更多的神经网络。

tanh一般使用Xavier初始化方法

ReLU及其变种一般使用Kaiming初始化方法。

机器学习真有趣

关注

14
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
YOLO入门学习笔记之参数初始化

上述两个初始化是2010年提出的Xavier初始化方法，在缓解爆炸和梯度消失都有不错的效果。这种方法对于双曲正切函数效果很好。为了让神经网络训练过程稳定下来，我们需要让y的方差落在一个可控的范围内，例如让他等于1。参数初始化方法可以减缓梯度爆炸和梯度消失问题，可以让我们训练层数更多的神经网络。在不使用激活函数的情况下，放大的y值就会被累积在反向传播的过程里，造成。给定一个神经元，假设输入有三个，为了方便讨论，我们忽略截距b。例如在均值为0，方差为1的正态分布随机采样。应对Relu函数的初始化方法。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。