Gradient Descent
1. 梯度下降
寻找一组参数,来让损失函数尽可能小
2. 改进方法
2.1调整学习率
Learning Rate Small 步长小
Learning Rate Ver large 步长非常大
Learning Rate Just make 步长刚刚好
Learning Rate Large 步长大
2.2自适应学习率
梯度对迭代值的大小影响相反:梯度值在分子上,梯度越大,迭代值的更新就越大;之前梯度的方均根在分母上,梯度越大,迭代值的更新越小。
2.3直观原因
梯度变化大
数学原因,大一点的一阶导数表示距离极小值更远
在此图中,c点距离极值点更近
2.4随机梯度下降
3. 特征缩放