Datawhale X 李宏毅苹果书 AI夏令营_深度学习基础学习心得

最新推荐文章于 2024-08-25 16:02:26 发布

weixin_53088678

最新推荐文章于 2024-08-25 16:02:26 发布

阅读量133

点赞数 6

文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53088678/article/details/141513118

版权

本次学习了深度学习中的局部最小值

1、书上说有时候模型一开始就训练不起来，不管怎么更新参数损失都不下降。我之前遇到过这种情况，大概是做一个数据很不平衡的二分类，正负样本比例大概为9：1，模型倾向于全部预测为正样本，没有办法学习负样本。

2、3.1.1介绍了一下鞍点，鞍点的各个方向的梯度是等于零的，而我们的模型反向传播又是基于梯度的，所以到了鞍点就没有办法再让损失下降了，但是其实鞍点和局部最优又区别，鞍点并不是梯度最小的点。

3、3.1.2介绍了损失函数L( $\theta$ )的近似：

第一项：如果 $\theta$ 很接近 $\theta$ ‘，L( $\theta$ )近似于L( $\theta$ ’)

第二项：g代表梯度，L( $\theta$ ’)对于 $\theta$ 中每个元素的偏微分

第三项：H：海森矩阵，里面是L的二次微分

接下来需要探究误差表面的形状，来判断是否为鞍点，主要探究第三项，另v = （ $\theta$ - $\theta$ ’）：

情况1）：如果对于所有v，第三项>0：局部最小

情况2）：对所有v，第三项<0：局部最大

情况3）：对所有v，有时大于0有时小于0：鞍点

在实际判断的时候，不需要用H于每一个v进行运算，只需要判断是否为正定或负定矩阵即可。

4、判断完鞍点，H还能够帮我们在鞍点指路：

令u = （ $\theta$ - $\theta$ ’）， $\lambda$ 为H的特征值：，该等式在 $\lambda$ 小于0时小于0

此时L( $\theta$ )<L( $\theta$ ’)，因此沿着u的方向更新，损失就会变小，所以在鞍点就需要找负特征值以及对应的特征向量

5、其他逃离鞍点的方法：

很多情况下，低维空间的局部最小在高维空间可能是鞍点

实际上，几乎找不到所有特征值都为正的临界点。大概还有一半的路可以让损失下降

#############################################################################

学习心得：感觉还是很有收获的，之前调模型可能就主要想着让损失下降，但是不求甚解，了解了最底层的逃离鞍点让损失下降的逻辑之后，对于各种算法好像有了新的认识

weixin_53088678

关注

6
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Datawhale X 李宏毅苹果书 AI夏令营_深度学习基础学习心得

我之前遇到过这种情况，大概是做一个数据很不平衡的二分类，正负样本比例大概为9：1，模型倾向于全部预测为正样本，没有办法学习负样本。2、3.1.1介绍了一下鞍点，鞍点的各个方向的梯度是等于零的，而我们的模型反向传播又是基于梯度的，所以到了鞍点就没有办法再让损失下降了，但是其实鞍点和局部最优又区别，鞍点并不是梯度最小的点。学习心得：感觉还是很有收获的，之前调模型可能就主要想着让损失下降，但是不求甚解，了解了最底层的逃离鞍点让损失下降的逻辑之后，对于各种算法好像有了新的认识。第二项：g代表梯度，L(
复制链接

扫一扫

weixin_53088678 CSDN认证博客专家 CSDN认证企业博客

码龄4年

44: 原创

129万+: 周排名

6万+: 总排名

6514: 访问

: 等级

536: 积分

39: 粉丝

96: 获赞

4: 评论

8: 收藏

私信

关注

热门文章

最新评论

城市管理违规行为智能识别_baseline学习心得
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python
代码随想录算法训练营第三天 | 移除链表元素、设计链表、反转链表
CSDN-Ada助手: 恭喜您在代码随想录算法训练营中坚持学习，第三篇博客内容涵盖了移除链表元素、设计链表、反转链表等知识点，看来您对链表操作有了更深入的理解。希望您能继续保持创作的热情，不断总结和分享学习心得。下一步建议可以尝试挑战一些更复杂的算法题目，加深对算法思想的理解，相信您会有更多收获的。加油！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
代码随想录算法训练营第一天 | 有序数组的平方、长度最小的子数组、螺旋矩阵II
CSDN-Ada助手: 非常棒的博客！写博客的过程本身就是学习的过程，不要因为一时的困难而气馁。关于有序数组的平方、长度最小的子数组和螺旋矩阵II，除了使用双指针和暴力法外，还可以尝试使用双端队列等数据结构，来解决问题。希望你能坚持下去，不断学习和提升自己的算法能力！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
代码随想录算法训练营第一天 | 二分查找、删除元素
CSDN-Ada助手: 算法技能树或许可以帮到你：https://edu.csdn.net/skill/algorithm?utm_source=AI_act_algorithm

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。