逻辑回归(logistic regression)的本质——极大似然估计

1 前言

逻辑回归是分类当中极为常用的手段,因此,掌握其内在原理是非常必要的。我会争取在本文中尽可能简明地展现逻辑回归(logistic regression)的整个推导过程。

2 什么是逻辑回归

逻辑回归在某些书中也被称为对数几率回归,明明被叫做回归,却用在了分类问题上,我个人认为这是因为逻辑回归用了和回归类似的方法来解决了分类问题。

假设有一个二分类问题,输出为 y ∈ { 0 , 1 } y \in \{0, 1\} y{0,1},而线性回归模型产生的预测值为 z = w T x + b z = w^Tx + b z=wTx+b是实数值,我们希望有一个理想的阶跃函数来帮我们实现 z z z值到 0 / 1 0/1 0/1值的转化。

ϕ ( z ) = { 0 i f   z < 0 0.5 i f   z = 0 1 i f   z > 0 \phi (z) = \left\{ \begin{aligned} 0 \quad if \ z < 0 \\ 0.5 \quad if \ z=0 \\ 1 \quad if \ z>0 \end{aligned} \right. ϕ(z)=0if z<00.5if z=01if z>0

然而该函数不连续,我们希望有一个单调可微的函数来供我们使用,于是便找到了 S i g m o i d   f u n c t i o n Sigmoid \ function Sigmoid function来替代。

ϕ ( z ) = 1 1 + e − z \phi (z) = \dfrac{1}{1 + e^{-z}} ϕ(z)=1+ez1

两者的图像如下图所示(图片出自文献2)
sigmoid

图1:sigmoid & step function

有了 S i g m o i d   f u c t i o n Sigmoid \ fuction Sigmoid fuction之后,由于其取值在 [ 0 , 1 ] [0,1] [0,1],我们就可以将其视为类 1 1 1的后验概率估计 p ( y = 1 ∣ x ) p(y = 1|x) p(y=1x)。说白了,就是如果有了一个测试点 x x x,那么就可以用 S i g m o i d   f u c t i o n Sigmoid \ fuction Sigmoid fuction算出来的结果来当做该点 x x x属于类别 1 1 1的概率大小。

于是,非常自然地,我们把 S i g m o i d   f u c t i o n Sigmoid \ fuction Sigmoid fuction计算得到的值大于等于 0.5 0.5 0.5的归为类别 1 1 1,小于 0.5 0.5 0.5的归为类别 0 0 0

y ^ = { 1 i f   ϕ ( z ) ≥ 0.5 0   o t h e r w i s e \hat{y} = \left\{ \begin{aligned} 1 \quad if \ \phi (z) \geq 0.5 \\ 0 \quad \quad \ otherwise \end{aligned} \right. y^={1if ϕ(z)0.50 otherwise

同时逻辑回归与自适应线性网络非常相似,两者的区别在于逻辑回归的激活函数是 S i g m o i d   f u n c t i o n Sigmoid \ function Sigmoid function而自适应线性网络的激活函数是 y = x y = x y=x,两者的网络结构如下图所示(图片出自文献1)。

adaline

图2:自适应线性网络

logisticRegression

图3:逻辑回归网络

3 逻辑回归的代价函数

好了,所要用的几个函数我们都有了,接下来要做的就是根据给定的训练集,把参数 w w w给求出来了。要找参数 w w w,首先就是得把代价函数(cost function)给定义出来,也就是目标函数。

我们第一个想到的自然是模仿线性回归的做法,利用误差平方和来当代价函数。

J ( w ) = ∑ i 1 2 ( ϕ ( z ( i ) ) − y ( i ) ) 2 J(w) = \sum_{i} \dfrac{1}{2} (\phi(z^{(i)}) - y^{(i)})^2 J(w)=i21(ϕ(z(i))y(i))2

其中, z ( i ) = w T x ( i ) + b z^{(i)} = w^Tx^{(i)} + b z(i)=wTx(i)+b i i i表示第 i i i个样本点, y ( i ) y^{(i)} y(i)表示第 i i i个样本的真实值, ϕ ( z ( i ) ) \phi(z^{(i)}) ϕ(z(i))表示第 i i i个样本的预测值。

这时,如果我们将 ϕ ( z ( i ) ) = 1 1 + e − z ( i ) \phi (z^{(i)}) = \dfrac{1}{1 + e^{-z^{(i)}}} ϕ(z(i))=1+ez(i)1代入的话,会发现这是一个非凸函数,这就意味着代价函数有着许多的局部最小值,这不利于我们的求解。

凸函数和非凸函数

图4:凸函数和非凸函数

那么我们不妨来换一个思路解决这个问题。前面,我们提到了 ϕ ( z ) \phi(z) ϕ(z)可以视为类 1 1 1的后验估计,所以我们有

p ( y = 1 ∣ x ; w ) = ϕ ( w T x + b ) = ϕ ( z ) p(y=1|x;w) = \phi(w^Tx + b)=\phi(z) p(y=1x;w)=ϕ(wTx+b)=ϕ(z)

p ( y = 0 ∣ x ; w ) = 1 − ϕ ( z ) p(y=0|x;w) = 1 - \phi(z) p(y=0x;w)=1ϕ(z)

其中, p ( y = 1 ∣ x ; w ) p(y=1|x;w) p(y=1x;w)表示给定 w w w,那么 x x x y = 1 y=1 y=1的概率大小。

上面两式可以写成一般形式

p ( y ∣ x ; w ) = ϕ ( z ) y ( 1 − ϕ ( z ) ) ( 1 − y ) p(y|x;w)=\phi(z)^{y}(1 - \phi(z))^{(1-y)} p(yx;w)=ϕ(z)y(1ϕ(z))(1y)

接下来我们就要用极大似然估计来根据给定的训练集估计出参数 w w w

L ( w ) = ∏ i = 1 n p ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 n ( ϕ ( z ( i ) ) ) y ( i ) ( 1 − ϕ ( z ( i ) ) ) 1 − y ( i ) L(w)=\prod_{i=1}^{n}p(y^{(i)}|x^{(i)};w)=\prod_{i=1}^{n}(\phi(z^{(i)}))^{y^{(i)}}(1-\phi(z^{(i)}))^{1-y^{(i)}} L(w)=i=1np(y(i)x(i);w)=i=1n(ϕ(z(i)))y(i)(1ϕ(z(i)))1y(i)

为了简化运算,我们对上面这个等式的两边都取一个对数

l ( w ) = l n L ( w ) = ∑ i = 1 n y ( i ) l n ( ϕ ( z ( i ) ) ) + ( 1 − y ( i ) ) l n ( 1 − ϕ ( z ( i ) ) ) l(w)=lnL(w)=\sum_{i = 1}^n y^{(i)}ln(\phi(z^{(i)})) + (1 - y^{(i)})ln(1-\phi(z^{(i)})) l(w)=lnL(w)=i=1ny(i)ln(ϕ(z(i)))+(1y(i))ln(1ϕ(z(i)))

我们现在要求的是使得 l ( w ) l(w) l(w)最大的 w w w。没错,我们的代价函数出现了,我们在 l ( w ) l(w) l(w)前面加个负号不就变成就最小了吗?不就变成我们代价函数了吗?

J ( w ) = − l ( w ) = − ∑ i = 1 n y ( i ) l n ( ϕ ( z ( i ) ) ) + ( 1 − y ( i ) ) l n ( 1 − ϕ ( z ( i ) ) ) J(w)=-l(w)=-\sum_{i = 1}^n y^{(i)}ln(\phi(z^{(i)})) + (1 - y^{(i)})ln(1-\phi(z^{(i)})) J(w)=l(w)=i=1ny(i)ln(ϕ(z(i)))+(1y(i))ln(1ϕ(z(i)))

为了更好地理解这个代价函数,我们不妨拿一个例子的来看看

J ( ϕ ( z ) , y ; w ) = − y l n ( ϕ ( z ) ) − ( 1 − y ) l n ( 1 − ϕ ( z ) ) J(\phi(z),y;w)=-yln(\phi(z))-(1-y)ln(1-\phi(z)) J(ϕ(z),y;w)=yln(ϕ(z))(1y)ln(1ϕ(z))

也就是说

J ( ϕ ( z ) , y ; w ) = { − l n ( ϕ ( z ) ) i f   y = 1 − l n ( 1 − ϕ ( z ) ) i f   y = 0 J(\phi(z),y;w)=\begin{cases} -ln(\phi(z)) & if \ y=1 \\ -ln(1-\phi(z)) & if \ y=0 \end{cases} J(ϕ(z),y;w)={ln(ϕ(z))ln(1ϕ(z))if y=1if y=0

我们来看看这是一个怎么样的函数

costfunction

图5:代价函数

从图中不难看出,如果样本的值是 1 1 1的话,估计值 ϕ ( z ) \phi(z) ϕ(z)越接近 1 1 1付出的代价就越小,反之越大;同理,如果样本的值是 0 0 0的话,估计值 ϕ ( z ) \phi(z) ϕ(z)越接近 0 0 0付出的代价就越小,反之越大。

4 利用梯度下降法求参数

在开始梯度下降之前,要这里插一句, s i g m o i d   f u n c t i o n sigmoid \ function sigmoid function有一个很好的性质就是

ϕ ′ ( z ) = ϕ ( z ) ( 1 − ϕ ( z ) ) \phi'(z) = \phi(z)(1 - \phi(z)) ϕ(z)=ϕ(z)(1ϕ(z))

下面会用到这个性质。

还有,我们要明确一点,梯度的负方向就是代价函数下降最快的方向。什么?为什么?好,我来说明一下。借助于泰特展开,我们有

f ( x + δ ) − f ( x ) ≈ f ′ ( x ) ⋅ δ f(x + \delta) - f(x) \approx f'(x) \cdot \delta f(x+δ)f(x)f(x)δ

其中, f ′ ( x ) f'(x) f(x) δ \delta δ为向量,那么这两者的内积就等于

f ′ ( x ) ⋅ δ = ∣ ∣ f ′ ( x ) ∣ ∣ ⋅ ∣ ∣ δ ∣ ∣ ⋅ c o s θ f'(x) \cdot \delta = ||f'(x)|| \cdot ||\delta|| \cdot cos \theta f(x)δ=f(x)δcosθ

θ = π \theta=\pi θ=π时,也就是 δ \delta δ f ′ ( x ) f'(x) f(x)的负方向上时,取得最小值,也就是下降的最快的方向了~

okay?好,坐稳了,我们要开始下降了。

w : = w + Δ w ,   Δ w = − η ∇ J ( w ) w := w + \Delta w, \ \Delta w=-\eta \nabla J(w) w:=w+Δw, Δw=ηJ(w)

没错,就是这么下降。没反应过来?那我再写详细一些

w j : = w j + Δ w j ,   Δ w j = − η ∂ J ( w ) ∂ w j w_j := w_j + \Delta w_j,\ \Delta w_j = -\eta \dfrac{\partial J(w)}{\partial w_j} wj:=wj+Δwj, Δwj=ηwjJ(w)

其中, w j w_j wj表示第 j j j个特征的权重; η \eta η为学习率,用来控制步长。

重点来了。

∂ J ( w ) w j = − ∑ i = 1 n ( y ( i ) 1 ϕ ( z ( i ) ) − ( 1 − y ( i ) ) 1 1 − ϕ ( z ( i ) ) ) ∂ ϕ ( z ( i ) ) ∂ w j = − ∑ i = 1 n ( y ( i ) 1 ϕ ( z ( i ) ) − ( 1 − y ( i ) ) 1 1 − ϕ ( z ( i ) ) ) ϕ ( z ( i ) ) ( 1 − ϕ ( z ( i ) ) ) ∂ z ( i ) ∂ w j = − ∑ i = 1 n ( y ( i ) ( 1 − ϕ ( z ( i ) ) ) − ( 1 − y ( i ) ) ϕ ( z ( i ) ) ) x j ( i ) = − ∑ i = 1 n ( y ( i ) − ϕ ( z ( i ) ) ) x j ( i ) \begin{aligned} & \dfrac{\partial J(w)}{w_j} = -\sum_{i=1}^n (y^{(i)}\dfrac{1}{\phi(z^{(i)})}-(1 - y^{(i)})\dfrac{1}{1-\phi(z^{(i)})})\dfrac{\partial \phi(z^{(i)})}{\partial w_j} \\ & =-\sum_{i=1}^n (y^{(i)}\dfrac{1}{\phi(z^{(i)})}-(1 - y^{(i)})\dfrac{1}{1-\phi(z^{(i)})})\phi(z^{(i)})(1-\phi(z^{(i)}))\dfrac{\partial z^{(i)}}{\partial w_j} \\ & =-\sum_{i=1}^n (y^{(i)}(1-\phi(z^{(i)}))-(1-y^{(i)})\phi(z^{(i)}))x_j^{(i)} \\ & =-\sum_{i=1}^n (y^{(i)}-\phi(z^{(i)}))x_j^{(i)} \end{aligned} wjJ(w)=i=1n(y(i)ϕ(z(i))1(1y(i))1ϕ(z(i))1)wjϕ(z(i))=i=1n(y(i)ϕ(z(i))1(1y(i))1ϕ(z(i))1)ϕ(z(i))(1ϕ(z(i)))wjz(i)=i=1n(y(i)(1ϕ(z(i)))(1y(i))ϕ(z(i)))xj(i)=i=1n(y(i)ϕ(z(i)))xj(i)

所以,在使用梯度下降法更新权重时,只要根据下式即可

w j : = w j + η ∑ i = 1 n ( y ( i ) − ϕ ( z ( i ) ) ) x j ( i ) w_j :=w_j+\eta \sum_{i=1}^n (y^{(i)}-\phi(z^{(i)}))x_j^{(i)} wj:=wj+ηi=1n(y(i)ϕ(z(i)))xj(i)

此式与线性回归时更新权重用的式子极为相似,也许这也是逻辑回归要在后面加上回归两个字的原因吧。

当然,在样本量极大的时候,每次更新权重会非常耗费时间,这时可以采用随机梯度下降法,这时每次迭代时需要将样本重新打乱,然后用下式不断更新权重。

w j : = w j + η ( y ( i ) − ϕ ( z ( i ) ) ) x j ( i ) , f o r   i   i n   r a n g e ( n ) w_j := w_j + \eta (y^{(i)}-\phi(z^{(i)}))x_j^{(i)}, for \ i \ in \ range(n) wj:=wj+η(y(i)ϕ(z(i)))xj(i),for i in range(n)

也就是去掉了求和,而是针对每个样本点都进行更新。

5 结束语

以上就是我参考了基本书中的说法之后对逻辑回归整个推到过程的梳理,也不知道讲清楚没有。
如有不足,还请指正~

6 参考文献

[1] Raschka S. Python Machine Learning[M]. Packt Publishing, 2015.
[2] 周志华. 机器学习 : = Machine learning[M]. 清华大学出版社, 2016.

相关推荐
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页