Datawhale X 李宏毅苹果书 AI夏令营第三章1、2节内容

weixin_44429805

已于 2024-08-28 19:21:04 修改

阅读量462

点赞数 5

文章标签： python

于 2024-08-27 23:58:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44429805/article/details/141615344

版权

一、第一节：局部最小值和鞍点

1、学习了局部最小值和鞍点的区别。

2、损失函数的式子分解，其中g是一次微分，H是二次微分。H的正负可以判断局部最小值、局部最大值和鞍点。

3、沿着特征向量的方向更新参数，损失就会变小。

4、逃离鞍点的方法，可以在更高维度的空间中，有路可走。最小值比例=正特征值数量/总特征值数量。当训练到一个梯度很小的地方，参数不再更新时，往往只是遇到了鞍点，局部最小值往往并没有那么常见。

二、批量和向量

1、批量梯度下降，没有划分批量，把所有数据都看过一遍，每次迭代的计算量很大，但相比于随机梯度下降，批量梯度下降每次更新更稳定、更准确。

2、考虑并行计算，批量梯度下降花费的时间不一定更长。

3、大批量的更新比较稳定，小的批量的梯度方向是有噪声的。

4、尝试理解教材里说的不了解的过拟合。过拟合‌是指在机器学习或数据挖掘过程中，模型在训练阶段过度学习了训练数据的特征和噪声，导致在实际应用时对新数据的预测性能下降的现象。过拟合的模型在训练数据上表现很好，但在未见过的数据上往往表现较差。这种现象通常是由于模型过于复杂或训练数据量不足引起的。为了解决过拟合问题，可以采取多种策略，如交叉验证、正则化、增大数据量和测试样本集等，以提高模型的泛化能力‌。——来源百度大模型的答案（结合“什么是过拟合”百度教育和”过拟合“百度百科）

5、训练损失上有多个最小值，再峡谷里是坏的最小值，在盆地里是好的最小值。训练和采样的分布、数据不一样，可能都有不同的结果。

P44(PDF P48)尝试理解书上这句话——虽然它在训练集上的损失很低，但训练跟测试之间的损失函数不一样，因此测试时，损失函数一变，计算出的损失就变得很大。

训练跟测试之间的损失函数不一样——可以理解成数值不同。

因此测试时，损失函数一变，计算出的损失就变得很大。——可以理解成采样内容不一定分布均匀，测试时，是可能计算出的损失就变得很大的。

6、从一个回合需要的时间来看，大批量比较有优势。另外，小的批量更新的方向比较有噪声，大的批量更新的方向比较稳定。但是，有噪声的方向反而在优化时有优势。批量大小是一个我们需要去调整的超参数。——一大段都是苹果书内容，学习到的概念。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。