逻辑回归Logistic Regression——二分类原理推导

最新推荐文章于 2023-09-21 20:45:00 发布

志存高远脚踏实地

最新推荐文章于 2023-09-21 20:45:00 发布

阅读量3.6k

点赞数 2

分类专栏：机器学习文章标签：逻辑回归二分类 sigmoid 逻辑回归二分类原理推导决策边界非线性

本文链接：https://blog.csdn.net/weixin_44451032/article/details/99685863

版权

机器学习专栏收录该内容

24 篇文章 8 订阅

订阅专栏

逻辑回归原理推导——Logistic Regression

逻辑回归是经典的二分类算法，逻辑回归的决策边界是非线性的。

例如下面的两种分类
在这里插入图片描述

前者是线性的，后者是非线性的。

实际分类中经常是先用逻辑回归分类，再用其他分类如支持向量机等，逻辑回归是比较简单的分类算法，先用逻辑回归再用其他复杂的分类算法查看分类效果，决定是否有必要使用其他分类算法。

分类时候我们想要的当然是某一个样本属于 $A$ 还是属于 $B$ 的概率为多大，然后设定一个阈值，当计算概率大于这个阈值的时候计算机判定该样本属于 $A$ ，当计算概率小于该阈值的时候计算机判定该样本属于 $B$

那么这就要用到sigmoid函数

sigmoid函数

sigmoid函数的计算公式如下

$\begin{aligned}g(z) = \frac{1}{1+e^{-z}}\end{aligned}$ ，自变量和函数值的取值范围分别为 $[-\infty,+\infty],(0,1)$

对sigmoid函数的求导过程如下

$\begin{aligned}g'(z) = \frac{0\times(1+e^{-z})-(-e^{-z})}{(1+e^{-z})^2} = \frac{e^{-z}}{(1+e^{-z})^2} = \frac{1+e^{-z}-1}{(1+e^{-z})^2} =\frac{1+e^{-z}}{(1+e^{-z})^2} - \frac{1}{(1+e^{-z})^2} = g(z) - g(z)^2 = g(z)(1-g(z))\end{aligned}$

$g (z)$ 和 $g^{'} (z)$ 的函数图像如下

在这里插入图片描述

在 $\begin{aligned}g(z) = \frac{1}{1+e^{-z}}\end{aligned}$ 中 $z$ 就是输入值，就是我们得到的预测值，在通过sigmoid函数将该预测值转化成概率，这就是我们想要得到的概率值。本来我们预测的是一个值，现在就转化成了预测的概率。

预测函数

$\begin{aligned}h_\theta(x) = g(\theta^Tx) =\frac{1}{1+e^{\theta^Tx}}\end{aligned}$

其中 $\theta_0x_0+\theta_1x_1+\theta_2x_2 + …+\theta_nx_n = \sum_{i = 0}^{i = n}\theta_ix_i =\theta^TX$

对于二分类任务某个样本属于1的概率为

$1|x;\theta) = h_\theta(x)$

那么属于0的概率为

$0|x;\theta) = 1-h_\theta(x)$

对上面两个公式进行整合可得到

$P(y|x;\theta) = (h_\theta(x))^y(1-h_\theta(x))^{1-y}$

对于二分类任务（0,1）整合后 $y = 0 $ 只保留 $(1-h_\theta(x))^{1-y}$ , $y = 1 $ 只保留 $h_\theta(x))^y$

此时我们构造似然函数求解 $\theta$ 的值

$\begin{aligned}L(\theta) = \prod_{i = 1}^{i = m}P(y_i|x_i;\theta) = \prod_{i = 1}^{i = m}(h_\theta(x_i))^{y_i}(1-h_\theta(x_i))^{1-y^{i}}\end{aligned}$

显然乘法计算复杂，将上述似然函数取对数得到对数似然函数

$\begin{aligned}l(\theta)=ln(L(\theta)) = \sum_{i =1}^{i = m}(y_iln(h_\theta(x_i))+(1-y_i)ln(1-h_\theta(x_i)))\end{aligned}$

我们的目标是求此对数似然函数的极大值，至于为什么要求似然函数的极大值请参考我的文章

既然要求此似然函数的极大值，那么这个问题必然是一个梯度上升的问题，但是我们通常情况下是求梯度下降问题，令 $\begin{aligned}J(\theta) = -\frac{1}{m}l(\theta)\end{aligned}$ 就转换为了梯度下降问题，系数 $1 / m $ 是指考虑所有样本。

$\begin{aligned}\frac{\partial J(\theta)}{\partial \theta_j} = -\frac{1}{m}\sum_{i =1}^{i = m}(y_i\frac{1}{h_\theta(x_i)}\frac{\partial h_\theta(x_i)}{\partial \theta_j}-(1-y_i)\frac{1}{1-h_\theta(x_i)}\frac{\partial h_\theta(x_i)}{\partial \theta_j}) =\frac{1}{m}\sum_{i = 1}^{i = m}(y_i\frac{1}{g(\theta^Tx_i)}-(1-y_i)\frac{1}{1-g(\theta^Tx_i)})\frac{\partial g(\theta^Tx_i)}{\partial \theta_j} \end{aligned}$

$=\begin{aligned}-\frac{1}{m}\sum_{i = 1}^{i = m}(y_i\frac{1}{g(\theta^Tx_i)}-(1-y_i)\frac{1}{1-g(\theta^Tx_i)}) = g(\theta^Tx_i)(1-g(\theta^Tx_i))\frac{\partial \theta^Tx_i}{\partial \theta_j}\end{aligned}$