1、梯度下降法
- 作用:最小化一个损失函数
- 梯度上升法:最大化一个效用函数
- η η 为学习率
- η η 取值影响获得最优解的速度
- η η 是梯度下降法的超参数
- η η 太小,学习速度缓慢
- η η 太大,会导致不收敛
并不是所有函数都有唯一的极值点,一个函数可能有多个极值点,包含了全局最优解和局部最优解。
解决方案:
- 多次运行,随机化初始点,比较多次运行结果
- 梯度下降法的初始点是一个超参数
2、线性回归中使用梯度下降法
目标:使 ∑mi=1(