梯度下降法
梯度下降法
梯度下降法如何训练logistic回归中出现的w和b参数呢,首先回归下logistic回归算法。第二行是成本函数J,被定义为平均值,即1/m的损失函数之和。
我们想找到使J最小成立的参数w,b。下图中横轴是w和b,纵轴是J的值。在实践中w可以是更高维的。可以看到,J是一个凸函数。梯度下降就是从初始化值J(w0,b0)开始,朝最陡的下坡方向走一步。最后一步一步收敛到全局最优解,或者接近全局最优解。
为了方便表示,忽略b值,只使用w和纵轴进行二维曲线画图。进行如下步骤,w一次一次按照下式更新,α是学习率,控制每一次迭代,或者梯度下降法中的步长。dw是导数,对参数w的更新或者变化量。新的w值就结合下面二维图和公式来计算。最后朝着J(w)的最小值进发。同样的更新参数b,也可以用类似的式子。