个人总结：常见的激活函数梯度下降家族与BatchSize 梯度消失和梯度爆炸

最新推荐文章于 2024-07-29 15:57:11 发布

yyhhlancelot

最新推荐文章于 2024-07-29 15:57:11 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签：机器学习深度学习激活函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyhhlancelot/article/details/100304974

版权

本文详细介绍了深度学习中常用的激活函数，包括sigmoid、tanh、ReLU、Leaky ReLU和ELU，分析了它们的优缺点及梯度消失问题。此外，还探讨了梯度下降家族，如BGD、SGD和MBGD的原理和适用场景，以及梯度爆炸的识别和解决策略。适当选择激活函数和调整Batch Size对于优化模型性能至关重要。

摘要由CSDN通过智能技术生成

激活函数

在普通的DNN中，如果不使用激活函数，相当于激活函数是f(x) = x。无论有多少隐藏层，输出的都是输入的线性组合，只能运用于线性分类。与没有隐藏层的效果相当，这就是原始的感知机。所以引入了非线性激活函数，增加神经网络的非线性。

常见激活函数：

（1）sigmoid函数

在逻辑回归中使用的激活函数，。

它的优点在于求导方便。

但是有三大缺点：

1、容易出现gradient vanishing：可以看到sigmoid在很大或者很小的情况下梯度趋近于0。而神经网络的反向传播过程是一个链式法则，是当前层的导数是之前各层导数的乘积，结果可能会很接近0。同时，sigmoid的导数最大值为0.25,这可能在反向传播层数较多的情况下被压缩为极小的数值，这也导致模型收敛过慢。

2、不是zero-centered：导致输入下一层神经元的数值全为正。

由于，的符号取决于的符号，这导致ω的梯度始终为正或者负，意味着ω一直朝着某个方向变化，这就是一个之字形(zig-zag)的更新走势，这导致收敛过程非

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
个人总结：常见的激活函数梯度下降家族与BatchSize 梯度消失和梯度爆炸

激活函数在普通的DNN中，如果不使用激活函数，相当于激活函数是f(x) = x。无论有多少隐藏层，输出的都是输入的线性组合，只能运用于线性分类。与没有隐藏层的效果相当，这就是原始的感知机。所以引入了非线性激活函数，增加神经网络的非线性。常见激活函数：（1）sigmoid函数在逻辑回归中使用的激活函数，。它的优点在于求导方便。但是有三大缺点：1、容易出现gradien...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。