逻辑回归(logistic regression)的本质——极大似然估计

最新推荐文章于 2024-07-20 15:15:48 发布

七元权

最新推荐文章于 2024-07-20 15:15:48 发布

阅读量10w+

点赞数 141

分类专栏：机器学习文章标签：机器学习逻辑回归极大似然估计分类器

本文链接：https://blog.csdn.net/zjuPeco/article/details/77165974

版权

机器学习专栏收录该内容

14 篇文章 22 订阅

订阅专栏

文章目录

1 前言
2 什么是逻辑回归
3 逻辑回归的代价函数
4 利用梯度下降法求参数
5 结束语
6 参考文献

1 前言

逻辑回归是分类当中极为常用的手段，因此，掌握其内在原理是非常必要的。我会争取在本文中尽可能简明地展现逻辑回归(logistic regression)的整个推导过程。

2 什么是逻辑回归

逻辑回归在某些书中也被称为对数几率回归，明明被叫做回归，却用在了分类问题上，我个人认为这是因为逻辑回归用了和回归类似的方法来解决了分类问题。

假设有一个二分类问题，输出为 $\in \{0, 1\}$ ，而线性回归模型产生的预测值为 $z = w^Tx + b$ 是实数值，我们希望有一个理想的阶跃函数来帮我们实现 $z$ 值到 $0 / 1$ 值的转化。

$\phi (z) = \left\{ \begin{aligned} 0 \quad if \ z < 0 \\ 0.5 \quad if \ z=0 \\ 1 \quad if \ z>0 \end{aligned} \right.$

然而该函数不连续，我们希望有一个单调可微的函数来供我们使用，于是便找到了 $\ function$ 来替代。

$\phi (z) = \dfrac{1}{1 + e^{-z}}$

两者的图像如下图所示（图片出自文献2）
sigmoid

图1：sigmoid & step function

有了 $\ fuction$ 之后，由于其取值在 $[0, 1]$ ，我们就可以将其视为类 $1$ 的后验概率估计 $p (y = 1 ∣ x)$ 。说白了，就是如果有了一个测试点 $x$ ，那么就可以用 $\ fuction$ 算出来的结果来当做该点 $x$ 属于类别 $1$ 的概率大小。

于是，非常自然地，我们把 $\ fuction$ 计算得到的值大于等于 $0.5$ 的归为类别 $1$ ，小于 $0.5$ 的归为类别 $0$ 。

$\hat{y} = \left\{ \begin{aligned} 1 \quad if \ \phi (z) \geq 0.5 \\ 0 \quad \quad \ otherwise \end{aligned} \right.$

同时逻辑回归与自适应线性网络非常相似，两者的区别在于逻辑回归的激活函数是 $\ function$ 而自适应线性网络的激活函数是 $y = x$ ，两者的网络结构如下图所示（图片出自文献1）。

adaline

图2：自适应线性网络

logisticRegression

图3：逻辑回归网络

3 逻辑回归的代价函数

好了，所要用的几个函数我们都有了，接下来要做的就是根据给定的训练集，把参数 $w$ 给求出来了。要找参数 $w$ ，首先就是得把代价函数（cost function）给定义出来，也就是目标函数。

我们第一个想到的自然是模仿线性回归的做法，利用误差平方和来当代价函数。

$\sum_{i} \dfrac{1}{2} (\phi(z^{(i)}) - y^{(i)})^2$

其中， $z^{(i)} = w^Tx^{(i)} + b$ ， $i$ 表示第 $i$ 个样本点， $y^{(i)}$ 表示第 $i$ 个样本的真实值， $\phi(z^{(i)})$ 表示第 $i$ 个样本的预测值。

这时，如果我们将 $\phi (z^{(i)}) = \dfrac{1}{1 + e^{-z^{(i)}}}$ 代入的话，会发现这是一个非凸函数，这就意味着代价函数有着许多的局部最小值，这不利于我们的求解。

凸函数和非凸函数

图4：凸函数和非凸函数

那么我们不妨来换一个思路解决这个问题。前面，我们提到了 $\phi(z)$ 可以视为类 $1$ 的后验估计，所以我们有

$\phi(w^Tx + b)=\phi(z)$

$\phi(z)$

其中， $p (y = 1 ∣ x; w)$ 表示给定 $w$ ，那么 $x$ 点 $y = 1$ 的概率大小。

上面两式可以写成一般形式

$p(y|x;w)=\phi(z)^{y}(1 - \phi(z))^{(1-y)}$

接下来我们就要用极大似然估计来根据给定的训练集估计出参数 $w$ 。

$L(w)=\prod_{i=1}^{n}p(y^{(i)}|x^{(i)};w)=\prod_{i=1}^{n}(\phi(z^{(i)}))^{y^{(i)}}(1-\phi(z^{(i)}))^{1-y^{(i)}}$

为了简化运算，我们对上面这个等式的两边都取一个对数

$l(w)=lnL(w)=\sum_{i = 1}^n y^{(i)}ln(\phi(z^{(i)})) + (1 - y^{(i)})ln(1-\phi(z^{(i)}))$

我们现在要求的是使得 $l (w)$ 最大的 $w$ 。没错，我们的代价函数出现了，我们在 $l (w)$ 前面加个负号不就变成就最小了吗？不就变成我们代价函数了吗？

$J(w)=-l(w)=-\sum_{i = 1}^n y^{(i)}ln(\phi(z^{(i)})) + (1 - y^{(i)})ln(1-\phi(z^{(i)}))$

为了更好地理解这个代价函数，我们不妨拿一个例子的来看看

$J(\phi(z),y;w)=-yln(\phi(z))-(1-y)ln(1-\phi(z))$

也就是说

$J(\phi(z),y;w)=\begin{cases} -ln(\phi(z)) & if \ y=1 \\ -ln(1-\phi(z)) & if \ y=0 \end{cases}$

我们来看看这是一个怎么样的函数

costfunction

图5：代价函数

从图中不难看出，如果样本的值是 $1$ 的话，估计值 $\phi(z)$ 越接近 $1$ 付出的代价就越小，反之越大；同理，如果样本的值是 $0$ 的话，估计值 $\phi(z)$ 越接近 $0$ 付出的代价就越小，反之越大。

4 利用梯度下降法求参数

在开始梯度下降之前，要这里插一句， $\ function$ 有一个很好的性质就是

$\phi'(z) = \phi(z)(1 - \phi(z))$

下面会用到这个性质。

还有，我们要明确一点，梯度的负方向就是代价函数下降最快的方向。什么？为什么？好，我来说明一下。借助于泰特展开，我们有

$\delta) - f(x) \approx f'(x) \cdot \delta$

其中， $f^{'} (x)$ 和 $\delta$ 为向量，那么这两者的内积就等于

$\cdot \delta = ||f'(x)|| \cdot ||\delta|| \cdot cos \theta$

当 $\theta=\pi$ 时，也就是 $\delta$ 在 $f^{'} (x)$ 的负方向上时，取得最小值，也就是下降的最快的方向了~

okay？好，坐稳了，我们要开始下降了。

$\Delta w, \ \Delta w=-\eta \nabla J(w)$

没错，就是这么下降。没反应过来？那我再写详细一些

$w_j := w_j + \Delta w_j,\ \Delta w_j = -\eta \dfrac{\partial J(w)}{\partial w_j}$

其中， $w_j$ 表示第 $j$ 个特征的权重； $\eta$ 为学习率，用来控制步长。

重点来了。

$\begin{aligned} & \dfrac{\partial J(w)}{w_j} = -\sum_{i=1}^n (y^{(i)}\dfrac{1}{\phi(z^{(i)})}-(1 - y^{(i)})\dfrac{1}{1-\phi(z^{(i)})})\dfrac{\partial \phi(z^{(i)})}{\partial w_j} \\ & =-\sum_{i=1}^n (y^{(i)}\dfrac{1}{\phi(z^{(i)})}-(1 - y^{(i)})\dfrac{1}{1-\phi(z^{(i)})})\phi(z^{(i)})(1-\phi(z^{(i)}))\dfrac{\partial z^{(i)}}{\partial w_j} \\ & =-\sum_{i=1}^n (y^{(i)}(1-\phi(z^{(i)}))-(1-y^{(i)})\phi(z^{(i)}))x_j^{(i)} \\ & =-\sum_{i=1}^n (y^{(i)}-\phi(z^{(i)}))x_j^{(i)} \end{aligned}$