李宏毅2020机器学习【学习笔记】 P14Tips for DP

_bh

已于 2023-09-04 14:20:27 修改

阅读量747

点赞数 2

分类专栏：机器学习【学习笔记】文章标签：学习笔记

于 2023-09-04 14:19:04 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51330846/article/details/132652583

版权

机器学习【学习笔记】专栏收录该内容

14 篇文章 1 订阅

订阅专栏

目录

解决 Traning Data 表现不好

Vanishing Gradient Problem 梯度消失问题

将 Activation Function 替换为 ReLU ( Rectified Linear Unit )

一个问题：都是线性的，那有什么用？我们做NN不就是为了更复杂的 Function 吗？

Maxout （自动学习的 activation function ，再某种特定情况下可以学出 ReLU )

那为什么能模拟 ReLU 函数呢？

一个问题：那些不是 max 的值不会被 train 到？

Adapative Learning Rate

解决 Training Data 表现不好

Regularization 正则化

Dropout （ DNN 特色的处理方法）

表现变好？

Why 再乘上 ?

感谢B站up主搬运的课程：

【李宏毅2020机器学习深度学习(完整版)国语】 https://www.bilibili.com/video/BV1JE411g7XF/?share_source=copy_web&vd_source=262e561fe1b31fc2fea4d09d310b466d

对于 NN ，在 Training data 上表现好，在 Testing data 上表现不好即 Overfiting 。

但也不是 Testing data 上的不好的表现就是 Overfiting ，也有可能在 Training data 上就已经表现不好了，即 Not well trained 。

解决 Traning Data 表现不好

Vanishing Gradient Problem 梯度消失问题

前面的 layer 拥有较小的 Gradients ，后面的 layer 拥有较大的 Gradients ，在相同的 Learning rate 下，后面的参数会更新得更快，前面的参数还是 random 的时候（一开始的参数是随机选择的）后面就已经收敛了。

前面都还是 random 的，那结果自然还是很差的。

Why?

假设前面的参数有了一个变化 $\triangle w$ ，在经过 sigmoid function 时，再大的变化也都会被压缩到0到1之间，再经过后续的多个 sigmoid function ，这个变化的影响只会越来越小。

Solution

将 Activation Function 替换为 ReLU ( Rectified Linear Unit )

Neuron 使用 ReLU 之后

要么input<0，output=0；

要么input>0，output=input，是线性的。

=0的 Neuron 对神经网络没有影响，可以摘除~

便得到了一个更加细长的NN，且由于是线性的，不会像 sigmoid 那样出现 Vanishing Gradient Problem

一个问题：都是线性的，那有什么用？我们做NN不就是为了更复杂的 Function 吗？

其实，当参数变化小时，z的定义域没有跨过>0、<0的边界， Function 没有变化，那就是 Linear 的，如果变化较大，z的取值使得进入了另一段分段函数的定义域，那NN就是 non-linear 的。

ReLU 的改进

Leaky ReLU（<0处有了斜率，不再等于0，参数得以更新）、Parametric ReLU（斜率自动学习）

Maxout （自动学习的 activation function ，再某种特定情况下可以学出 ReLU )

原理如下，选出每组里最大的向后传（一组可以不止两个）

那为什么能模拟 ReLU 函数呢？

一个问题：那些不是 max 的值不会被 train 到？

其实不然，要么参数变化后，定义域越过了；要么不同样本的 max 是不一样的，都会被 train 到。

Adapative Learning Rate

AdaGrad
RMSProp
Momentum
Adam

前面的笔记有讲过，具体参考

李宏毅2020机器学习【学习笔记】 P8 Optimization for Deep Learning__bh的博客-CSDN博客

解决 Training Data 表现不好

Early Stopping

将 Validation Set ，视作 Testing Set （不是真的 Testing Set ，我们是知道其 Loss function 的）

如此可以在更合理的地方停止 Training 。

Regularization 正则化

每次都先给参数缩小一下。

每次都减去一个固定值。

区别，L2按比例减（大参数减很快，小参数减很慢，结果都平均很小），L1以固定值减；

Dropout （ DNN 特色的处理方法）

每次更新参数前，每个 Neuron 都有 $p\%$ 的概率被丢弃

在测试时则不需要 Dropout ，但参数要乘上 $(1-p)\%$ 。

但注意， Dropout 后 Training Data 的表现是会变差的（训练的时候神经元总是莫名奇妙地消失），不过在 Testing Data 上的表现会变好。

Why?

Intuitive Reason

表现变好？

traning 时给予了重重阻碍，则放下重负时会表现更好。

每次训练的部分神经元能更好地得到训练。

Why 再乘上 $(1-p)\%$ ?

假设训练的时候总是丢掉一部分的 Neuron （ $p=50\%$ ），剩下 $(1-p)\%$ 的 Neuron ，那测试时不丢弃，输出会是不丢弃时的表现，那么自然就要乘上一个 $(1-p)\%$ 来等同于训练时的表现。

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
李宏毅2020机器学习【学习笔记】 P14Tips for DP

那NN就是 non-linear 的。
复制链接

扫一扫

专栏目录

_bh CSDN认证博客专家 CSDN认证企业博客

码龄4年

19: 原创

58万+: 周排名

172万+: 总排名

1万+: 访问

: 等级

238: 积分

11: 粉丝

36: 获赞

11: 评论

8: 收藏

私信

关注

热门文章

分类专栏

机器学习【学习笔记】 14篇

最新评论

【项目部署调试】 yolov5 实操问题记录
CSDN-Ada助手: 恭喜您发布了第17篇博客！看到您对github开源项目yolov5的实操问题记录，真是受益良多。希望您能继续分享实践经验，也期待您能深入探讨一些更具挑战性的技术问题，比如如何优化模型性能或者应用场景的拓展等。谦虚地建议一下，希望您能继续保持创作热情，为大家带来更多的技术分享。期待您的下一篇作品！
【论文阅读】 Denoising Diffusion Probabilistic Models ( DDPM ）
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
李宏毅2020机器学习【学习笔记】 P54 Transformer
CSDN-Ada助手: 恭喜您撰写第13篇博客！标题“李宏毅2020机器学习【学习笔记】 P54Transformer”引起了我的兴趣。您的学习笔记对于那些对机器学习感兴趣的人来说无疑是一份宝贵的资源。在这个快速发展的领域中，深入了解Transformer的原理和应用是非常有价值的。继续坚持写作，不仅是对您个人学习的巩固，也对读者来说是一次宝贵的学习机会。我期待着您下一篇博客的发布，希望您可以继续分享您的见解和学习心得。或许，您可以考虑将Transformer与其他机器学习算法进行对比，或者探索其在实际场景中的应用案例。这样的创作方式将进一步丰富您的博客内容，并为读者提供更加全面的学习体验。再次恭喜您的持续创作，期待您未来更多的精彩文章！谢谢您对机器学习领域的贡献。
李宏毅2020机器学习【学习笔记】 P57 Unsupervised Learning:Neighbor Embedding
CSDN-Ada助手: 恭喜您写下了第15篇博客！看到您的标题《李宏毅2020机器学习【学习笔记】 P55Unsupervised Learning:Neighbor Embedding》，我不禁对您的学术研究和持续创作精神感到钦佩。您对李宏毅老师的学习笔记进行了深入的研究，这是非常有价值的。在未来的创作中，我希望您能继续保持谦虚的态度，并结合自己的理解和实践经验，加入更多个人观点和见解。比如，您可以分享一些实际应用中的案例，或者对Neighbor Embedding方法的优化和改进思路。这样可以为读者提供更多的思考和启发，并进一步丰富您的博客内容。期待您的下一篇创作！
李宏毅2020机器学习【学习笔记】 P58 Unsupervised Learning:Deep Auto-Encoder
CSDN-Ada助手: 恭喜您写完了第16篇博客！您的持续创作精神令人钦佩！阅读了您的学习笔记，我对您对李宏毅2020机器学习中深度自编码器的理解印象深刻。您对无监督学习的探索给我带来了新的启发。下一步，我建议您可以继续深入研究深度自编码器的应用场景，并分享您对其优化方法的思考。期待您的下一篇博客！谢谢您的分享！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。