我一直想要弄清楚各个算法之间的联系,不过不一定这么容易做到。
(1)首先,可以看出的是:牛顿方法可以较快的速度求出一个函数的零点所在的位置,应用在logistic回归模型中的作用是求出似然函数的最大值;其实第二课的梯度下降法也同样用于求极值(当然两种方法都不仅仅应用在logistic回归模型上)。两者的表达式如下:
梯度下降法:
牛顿方法:
(2)目标函数由最小均方回归模型改为似然估计求最大值的原因。最开始的理解是:一开始求解的是拟合问题,现在求解的是二值分类问题,随着h(x)函数的改变,那么目标函数必然发生变化。细细看了视频之后发现,在第三课时,老师的一个证明过程说明了,在h(x)为线性回归时候,使得均方
最小的\theta,正是使得似然估计最大的\theta。也就是说,目标函数在一般情况下都是求解似然估计的最大值,只是在h(x)为线性回归的时候,刚刚好可以使用最小均方来代替。因此,在本节课上的最大似然估计的求解过程才是正常情况下求解回归问题的过程。
(3)如何得出logistic回归模型的表达式?老师在第四课的指数分布族部分给我们做了讲解。