这么一看,你可能会觉得奇怪,g(Z)显然不可导,怎么使用梯度下降呢?其实它和梯度下降只是形式上一样。现在我们来继续看一下这个update rule.
如果y=1而g(theta*X)=0,若xj>0,那么theta(j)将会增大,是整个函数的值增大,从而使得这个被分错的数据向被分对的趋势靠拢。若xj<0, 那么theta(j)将变小,并且整个函数的值增大,从而也使得这个被分错的数据向被分对的方向靠拢。如果y=0而g(theta*X)=1也使一样的。如果分类是正确的,则不会更新theta(j)的值。