一、第一节:局部最小值和鞍点
1、学习了局部最小值和鞍点的区别。
2、损失函数的式子分解,其中g是一次微分,H是二次微分。H的正负可以判断局部最小值、局部最大值和鞍点。
3、沿着特征向量的方向更新参数,损失就会变小。
4、逃离鞍点的方法,可以在更高维度的空间中,有路可走。最小值比例=正特征值数量/总特征值数量。当训练到一个梯度很小的地方,参数不再更新时,往往只是遇到了鞍点,局部最小值往往并没有那么常见。
二、批量和向量
1、批量梯度下降,没有划分批量,把所有数据都看过一遍,每次迭代的计算量很大,但相比于随机梯度下降,批量梯度下降每次更新更稳定、更准确。
2、考虑并行计算,批量梯度下降花费的时间不一定更长。
3、大批量的更新比较稳定,小的批量的梯度方向是有噪声的。
4、尝试理解教材里说的不了解的过拟合。过拟合是指在机器学习或数据挖掘过程中,模型在训练阶段过度学习了训练数据的特征和噪声,导致在实际应用时对新数据的预测性能下降的现象。过拟合的模型在训练数据上表现很好,但在未见过的数据上往往表现较差。这种现象通常是由于模型过于复杂或训练数据量不足引起的。为了解决过拟合问题,可以采取多种策略,如交叉验证、正则化、增大数据量和测试样本集等,以提高模型的泛化能力。——来源百度大模型的答案(结合“什么是过拟合”百度教育和”过拟合“百度百科)
5、训练损失上有多个最小值,再峡谷里是坏的最小值,在盆地里是好的最小值。训练和采样的分布、数据不一样,可能都有不同的结果。
P44(PDF P48)尝试理解书上这句话——虽然它在训练集上的损失很低,但训练跟测试之间的损失函数不一样,因此测试时,损失函数一变,计算出的损失就变得很大。
训练跟测试之间的损失函数不一样——可以理解成数值不同。
因此测试时,损失函数一变,计算出的损失就变得很大。——可以理解成采样内容不一定分布均匀,测试时,是可能计算出的损失就变得很大的。
6、从一个回合需要的时间来看,大批量比较有优势。另外,小的批量更新的方向比较有噪声,大的批量更新的方向比较稳定。但是,有噪声的方向反而在优化时有优势。批量大小是一个我们需要去调整的超参数。——一大段都是苹果书内容,学习到的概念。