统计学习方法第六章I
LR回归的核心在于引入了新的平滑函数sigmoid函数,这种函数相比于感知机的符号函数sgn函数好处在于可以求导,可以求导意味着可以进行梯度下降。(在感知机中实际上是最小化 y i ( w ∗ x i + b ) y_i(w*x_i+b) yi(w∗xi+b))
并且相对于感知机算法,只要
w
x
+
b
>
0
wx+b>0
wx+b>0就判定为1的策略。再sigmoid的函数帮助下,我们可以得到一个相对精确的概率。
我们需要假设数据符合这一分布,在得到了分布模型之后,我们可以通过最大似然估计的方法得到模型的相关参数。因为sigmoid是平滑可导的,我们可以对似然函数求导,进行梯度下降寻找参数的最优点。
需要注意得到的对数似然函数,N为样本数量。
对似然函数求导可以得到:
∂ L ( w ) ∂ w i = y i x i − x i exp ( w x i ) 1 + exp w x i ) \frac{\partial L(w)}{\partial w_i}={y_i}{x_i}-\frac{x_i\exp(wx_i)}{1 + \exp {w{x_i}})} ∂wi∂L(w)=yixi−1+expwxi)xiexp(wxi)
对于LR的理解可以看为线性模型 w T x w^Tx wTx的结果压缩到了[0, 1]的空间上,具有了概率意义。
对数几率(log odds)
定义对数几率为 l o g i t ( p ) = log ( p 1 − p ) logit(p) = \log(\frac{p}{1-p}) logit(p)=log(1−pp)