逻辑斯蒂回归详解

最新推荐文章于 2023-12-04 19:18:35 发布

zhong_ddbb

最新推荐文章于 2023-12-04 19:18:35 发布

阅读量1.1k

点赞数 2

分类专栏：机器学习基础文章标签：算法机器学习逻辑回归人工智能

本文链接：https://blog.csdn.net/zhong_ddbb/article/details/105958095

版权

机器学习基础专栏收录该内容

31 篇文章 21 订阅

订阅专栏

文章目录

逻辑斯蒂分布
二项逻辑斯蒂回归模型
模型的参数估计
多项逻辑斯蒂回归

逻辑斯蒂分布

定义：设 $X$ 是连续随机变量， $X$ 服从逻辑斯蒂分布是指 $X$ 具有下列分布函数：
$F(x)=P(X\leqslant x)=\frac{1}{1+e^{(-(x-\mu)/\gamma)}}\\ f(x) = \frac{\mathrm{d}F(x)}{\mathrm{d}x} = \frac{e^{(-(x-\mu)/\gamma)}}{\gamma(1+e^{(-(x-\mu)/\gamma)})^2}$
式中： $\mu,\gamma$ 为参数。

其函数图像如下：

在这里插入图片描述

二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型是一种分类模型，由条件概率分布 $P (Y ∣ X)$ 表示。 $w=(w^{(1)},w^{(2)},\ldots,w^{(n)},b)^T$ ， $x=(x^{(1)},x^{(2)},\ldots,x^{(n)},1)$ ，分类模型的条件概率分布如下：
$\begin{aligned} P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}\\ P(Y=0|x)=\frac{1}{1+\exp(w\cdot x)}\\ \end{aligned}$
这是一个逻辑斯蒂分布，由逻辑斯蒂分布图可知：函数值越接近正无穷，概率值就越接近1，线性函数的值越接近负无穷，概率值就越接近0。

对于给定的输入实例 $x$ 按照上式计算，比较两个条件概率值的大小，将 $x$ 分到概率较大的哪一类。

定义事件的几率：事件发生的概率与事件不发生的概率的比值，所以其对数几率是：
$logit(p)=\log\frac{p}{1-p}$
逻辑斯蒂回归的对数几率为：
$\log\frac{P(Y=1|x)}{1-P(Y=1|x)}=\color{red}\log\frac{P(Y=1|x)}{P(Y=0|x)}\color{black}=w\cdot x$
从上式可知：在逻辑斯蒂回归模型中，输出 $Y = 1$ 的对数几率是输入x的线性函数。通过上式也可解得：
$P(Y=1|x)=\frac{\exp(w\cdot x)}{1+\exp(w\cdot x)}$
所以逻辑斯蒂回归又称“对数几率回归”。

模型的参数估计

对于给定数据集 $T=\{(x_1,y_1),(x_2,y_2),\ldots,(x_N,y_N)\}, x_i \in \mathcal R^n, y_i \in\{0,1\}$ ，可以通过极大似然函数法估计模型的参数。

设：
$P(Y=1|x)=\pi(x),\qquad P(Y=0|x)=1-\pi(x)$
似然函数为：
$\prod^N_{i=1}[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数为：
$\begin{aligned} L(w) &=\log \prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}\\&=\sum_{i=1}^N[y_i\log(\pi(x_i))+(1-y_i)\log(1-\pi(x_i))]\\ &=\sum_{i=1}^N[y_i\log(\frac{\pi(x_i)}{1-\pi(x_i)})+\log(1-\pi(x_i))]\\ &=\sum_{i=1}^N[y_i(w\cdot x_i)-\log(1+\exp(w\cdot x_i))] \end{aligned}$
注：上式的最后一步应用了逻辑斯蒂回归的对数几率关系。

对 $L (w)$ 求极大值，得到 $w$ 的估计值。

这样问题就变成了以对数似然函数为目标的最优化问题，该问题可以用牛顿法进行求解。

最大化似然函数等价于最小化下式：
$\mathcal l(w) = \sum_{i=1}^N[-y_i(w\cdot x_i)+\log(1+\exp(w\cdot x_i))]$
$\mathcal l(w)$ 是关于 $w$ 的高阶可导连续凸函数，采用牛顿法进行迭代求解。

$\mathcal l(w)$ 是关于 $w$ 的一阶导数，二阶导数分别为：
$\begin{aligned} \frac{\partial\mathcal l(w)}{\partial w} &=\sum_{i=1}^N[-y_ix_i+\frac{x_i\exp(w\cdot x_i)}{1+\exp(w\cdot x_i)}]\\ &=-\sum_{i=1}^N x_i\left(y_i-\frac{\exp(w\cdot x_i)}{1+\exp(w\cdot x_i)}\right)\\ &=-\sum_{i=1}^N x_i\left(y_i-P(Y=1|x)\right) \end{aligned}$

$\begin{aligned} \frac{\partial^2 \mathcal l(w)}{\partial w \partial w^T}&=\frac{\partial \sum_{i=1}^N\frac{x_i\exp(w\cdot x_i)}{1+\exp(w\cdot x_i)}}{\partial w^T} \\ &=\sum_{i=1}^N x_i \frac{(1+\exp(w\cdot x_i))\exp(w\cdot x_i)x_i-\exp(w\cdot x_i)\exp(w\cdot x_i)x_i}{(1+\exp(w\cdot x_i))^2}\\ &=\sum_{i=1}^Nx_ix_i^T\frac{\exp(w\cdot x_i)}{(1+\exp(w\cdot x_i))^2}\\ &=\sum_{i=1}^Nx_ix_i^TP(Y=1|x)(1-P(Y=1|x)) \end{aligned}$

其 $t + 1$ 轮迭代更新的公式为：
$w^{(t+1)} = w^{(t)} - \left(\frac{\partial^2 \mathcal l(w)}{\partial w \partial w^T}\right)^{-1} \frac{\partial \mathcal l(w)}{\partial w}$

多项逻辑斯蒂回归

逻辑斯蒂回归如何用于多分类？主要是通过组合多个二分类器来实现多分类器的构造，假设有4个类别需要划分，类别分别为A，B，C，D。先选择一个类别作为主类别，假设选择D作为主类别。然后把A，B，C三个类分别的主类别D进行回归。所以会得到以下几个模型：

（1）类别A，类别D二项逻辑斯蒂回归模型，模型参数为 $w_1$

（2）类别B，类别D二项逻辑斯蒂回归模型，模型参数为 $w_2$

（3）类别C，类别D二项逻辑斯蒂回归模型，模型参数为 $w_3$

分别计算：
$\begin{aligned} P(Y=k|x)&=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)},\quad k=1,2,3\\ P(Y=K|x)&=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)} \quad K=4\\ \end{aligned}$
得到概率 $P (Y = 1 ∣ x), P (Y = 2 ∣ x), P (Y = 3 ∣ x), P (Y = 4 ∣ x)$ ，其中最大的概率为其最终类别。

通过这个例子，可以看出:对于K分类，首先选出一个主类别，然后把主类别和其他的K -1 个类别分别进行二项逻辑斯蒂回归分类，所以多项逻辑斯蒂回归的模型为：
$\begin{aligned} P(Y=k|x)&=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}, k=1,2,\dots,K-1\\ P(Y=K|x)&=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}\\ \end{aligned}$
接下来看看这个模型是如何推导出来的。

根据逻辑斯蒂回归的对数几率，计算 $K - 1$ 种可能的取值发生的概率相对取值 $K$ 发生的概率的比值：
$\begin{aligned} \ln\frac{P(Y=1|x)}{P(Y=K|x)}&=w_1\cdot x\\ \ln\frac{P(Y=2|x)}{P(Y=K|x)}&=w_2\cdot x\\ \cdots\\ \ln\frac{P(Y=K-1|x)}{P(Y=K|x)}&=w_{K-1}\cdot x\\ \end{aligned}$
所以：
$\begin{aligned} {P(Y=1|x)}&={P(Y=K|x)}\exp(w_1\cdot x)\\ {P(Y=2|x)}&={P(Y=K|x)}\exp(w_2\cdot x)\\ \cdots\\ {P(Y=K-1|x)}&={P(Y=K|x)}\exp(w_{K-1}\cdot x)\\ \end{aligned}$
观察式子，上式可以写成如下格式：
$\color{red}{P(Y=k|x)}\color{red}={P(Y=K|x)}\exp(w_k\cdot x), k=1,2,\dots,K-1$
因为最后得到的概率和为1，所以有
$\begin{aligned} P(Y=K|x)&=1-\sum_{j=1}^{K-1}P(Y=j|x)\\ &=1-P(Y=K|x)\sum_{j=1}^{K-1}\exp(w_j\cdot x)\\ \end{aligned}$
解得：
$P(Y=K|x)=\frac{1}{1+\sum_{j=1}^{K-1}\exp(w_j\cdot x)}$
将 $P (Y = K ∣ x)$ 带入 $\quad k=1,2,\ldots,K-1$ ，得：
$\begin{aligned} \color{red}{P(Y=k|x)}&\color{red}={P(Y=K|x)}\exp(w_k\cdot x), k=1,2,\dots,K-1\\ &=\frac{1}{1+\sum_{j=1}^{K-1}\exp(w_j\cdot x)}\exp(w_k\cdot x), k=1,2,\dots,K-1\\ &=\frac{\exp(w_k\cdot x)}{1+\sum_{j=1}^{K-1}\exp(w_j\cdot x)}, k=1,2,\dots,K-1\\ \end{aligned}$
这样就得到了最终得多分类模型：
$\begin{aligned} P(Y=k|x)&=\frac{\exp(w_k\cdot x)}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}, k=1,2,\dots,K-1\\ P(Y=K|x)&=\frac{1}{1+\sum_{k=1}^{K-1}\exp(w_k\cdot x)}\\ \end{aligned}$

zhong_ddbb

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
4
评论
逻辑斯蒂回归详解

逻辑斯蒂分布定义：设XXX 是连续随机变量，XXX 服从逻辑斯蒂分布是指XXX 具有下列分布函数：F(x)=P(X⩽x)=11+e(−(x−μ)/γ)f(x)=dF(x)dx=e(−(x−μ)/γ)γ(1+e(−(x−μ)/γ))2F(x)=P(X\leqslant x)=\frac{1}{1+e^{(-(x-\mu)/\gamma)}}\\f(x) = \frac{\mathrm{d}F...
复制链接

扫一扫