前言
简单的说一下需要注意的东西
一、代价函数
- 即使代价函数没有到达最小值,它也会对应一组参数,也会有一个模型来预测。只是误差大
- 代价函数是个平方和除以数目,具有非负性和平均性
二、梯度下降
1.更新参数的时间
梯度下降的参数更新时间必须是所有参数全部计算完成后在整体更新。不能得到一个参数就更新一个。
2.可以随机取初始值
因为这里的斜率可以有正负,你在最小值的任何一边都可以想它靠近。可能是减去负数,可能是减去负数,负负得正。
3.学习率
- 学习率太小每次走的步伐太小,可能得运转很多次
- 学习率太大走的步伐太大,可能会走过最小值,导致误差越来越大从而无法收敛
- 学习率的影响会随着靠近局部最小值而减小,因为会越来越平缓,导数会越来越趋向于零直接导致走的步伐越来越小。
总结
这里就是要说的需要注意的部分