Datawhale X 李宏毅苹果书 AI夏令营 第三章1、2节内容

一、第一节:局部最小值和鞍点

1、学习了局部最小值和鞍点的区别。

2、损失函数的式子分解,其中g是一次微分,H是二次微分。H的正负可以判断局部最小值、局部最大值和鞍点。

3、沿着特征向量的方向更新参数,损失就会变小。

4、逃离鞍点的方法,可以在更高维度的空间中,有路可走。最小值比例=正特征值数量/总特征值数量。当训练到一个梯度很小的地方,参数不再更新时,往往只是遇到了鞍点,局部最小值往往并没有那么常见。

二、批量和向量

1、批量梯度下降,没有划分批量,把所有数据都看过一遍,每次迭代的计算量很大,但相比于随机梯度下降,批量梯度下降每次更新更稳定、更准确。

2、考虑并行计算,批量梯度下降花费的时间不一定更长。

3、大批量的更新比较稳定,小的批量的梯度方向是有噪声的。

4、尝试理解教材里说的不了解的过拟合。过拟合‌是指在机器学习或数据挖掘过程中,模型在训练阶段过度学习了训练数据的特征和噪声,导致在实际应用时对新数据的预测性能下降的现象。过拟合的模型在训练数据上表现很好,但在未见过的数据上往往表现较差。这种现象通常是由于模型过于复杂或训练数据量不足引起的。为了解决过拟合问题,可以采取多种策略,如交叉验证、正则化、增大数据量和测试样本集等,以提高模型的泛化能力‌。——来源百度大模型的答案(结合“什么是过拟合”百度教育和”过拟合“百度百科)

5、训练损失上有多个最小值,再峡谷里是坏的最小值,在盆地里是好的最小值。训练和采样的分布、数据不一样,可能都有不同的结果。

 P44(PDF P48)尝试理解书上这句话——虽然它在训练集上的损失很低,但训练跟测试之间的损失函数不一样,因此测试时,损失函数一变,计算出的损失就变得很大。

训练跟测试之间的损失函数不一样——可以理解成数值不同。

因此测试时,损失函数一变,计算出的损失就变得很大。——可以理解成采样内容不一定分布均匀,测试时,是可能计算出的损失就变得很大的。

6、从一个回合需要的时间来看,大批量比较有优势。另外,小的批量更新的方向比较有噪声,大的批量更新的方向比较稳定。但是,有噪声的方向反而在优化时有优势。批量大小是一个我们需要去调整的超参数。——一大段都是苹果书内容,学习到的概念。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值