梯度
1.用梯度求最小值
梯度指所有方向上导数的综合
2.局部极小值和鞍点都会影响到优化器
3.初始状态、学习率和动量等会影响到Optimizer Performance
初始状态影响达全局最小还是局部极小值、搜索的路径长短速度快慢
学习率影响收敛的速度和精度
动量即惯性,添加动量后能够在惯性的作用下避免局部极小值
4.常见梯度
xw + b 对w,b梯度(x, 1)
xw² + b² 对w,b梯度(2xw, 2b)
xe^w + e^b 对w,b梯度(xe^w, e^b)
[y - (xw + b)]² 对w,b梯度(-2x[y - (xw + b)], -2[y - (xw + b)])
yln(xw + b) 对w,b梯度(xy/(xw + b), y/(xw + b))