隐藏单元的选择

最新推荐文章于 2022-11-07 11:51:27 发布

Icevivina

最新推荐文章于 2022-11-07 11:51:27 发布

阅读量817

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhouhong0284/article/details/80076528

版权

深度学习专栏收录该内容

19 篇文章 1 订阅

订阅专栏

整流线性单元(ReLu)是隐藏单元极好的默认选择。也可以选择其他隐藏单元，但是选用过程中充满了试验和错误，先直觉认为某种隐藏单元可能表现良好，然后用它组成神经网络进行训练，最后用验证集来评估它的性能。
有些隐藏单元并不是在所有点上可微，比如说Relu在z=0点处不可微，但在实践中，梯度下降对这些机器学习模型仍旧表现的足够好。部分原因是神经网络训练算法通常不会达到代价函数的局部最小值，而是仅仅显著减小它的值，这使我们不再期望训练可以达到梯度为0的点，所以代价函数的最小值对于梯度未定义的点是可接受的。

sigmoid,tanh

这里写图片描述
sigmoid在Z值较大和较小时都容易饱和。
$\rm tanh(z)=2\sigma(2z)-1$

整流线型单元及其扩展

为什么选择Relu？
整流线型单元易于优化，因为他们与线性单元十分类似；处于激活状态时，导数大且一致。
特点：半整流半线性旨在描述生物神经元的这些性质：1）对于某些输入，生物神经元是完全不活跃的。2）对于某些输入，生物神经元的输出和输入成正比。3）大多数时间，生物神经元是它们不活跃的状态下进行的操作（即具有稀疏激活）。
Relu的三个扩展 $g(z)=max(0,z)+\alpha \min(0,z)$ ：
绝对值整流g(z)=|z|；leaky Relu $\alpha=0.01$ ;参数化整流线性单元学习 $\alpha$ 。
线性行为更容易优化。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
隐藏单元的选择

整流线性单元(ReLu)是隐藏单元极好的默认选择。也可以选择其他隐藏单元，但是选用过程中充满了试验和错误，先直觉认为某种隐藏单元可能表现良好，然后用它组成神经网络进行训练，最后用验证集来评估它的性能。有些隐藏单元并不是在所有点上可微，比如说Relu在z=0点处不可微，但在实践中，梯度下降对这些机器学习模型仍旧表现的足够好。部分原因是神经网络训练算法通常不对达到代价函数的局部最小值，而是仅仅显著...
复制链接

扫一扫

专栏目录

Icevivina CSDN认证博客专家 CSDN认证企业博客

码龄8年

60: 原创

7万+: 周排名

12万+: 总排名

11万+: 访问

: 等级

1514: 积分

125: 粉丝

95: 获赞

10: 评论

188: 收藏

私信

关注

热门文章

分类专栏

最新评论

预训练语言模型transformer
征途黯然.: The expertise in 预训练语言模型transformer is admirable, and the article is highly valuable.
自监督学习
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
《明朝那些事儿》--主要人物整理
huyeeeee: 1.朱棣那里是张玉，不是徐玉 2.朱祁钰是明代宗，不是明太宗
总结机器学习面试题---按照算法分类（更新整理中）
艾宾浩斯的美酒: 度量指标里面的查全率（召回率）公式写错了
总结机器学习面试题---按照算法分类（更新整理中）
艾宾浩斯的美酒: 逻辑回归为什么不用平方函数作为损失函数，因为平方函数进行不是凸函数，有可能会陷入局部极小值点。不能梯度下降法，

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。