逻辑回归（Logistic Regression）原理

最新推荐文章于 2024-05-29 16:42:20 发布

一骑走烟尘

最新推荐文章于 2024-05-29 16:42:20 发布

阅读量905

点赞数

分类专栏：机器学习原理推导

本文链接：https://blog.csdn.net/zgcr654321/article/details/89763460

版权

机器学习原理推导专栏收录该内容

10 篇文章 1 订阅

订阅专栏

文章目录

sigmoid函数
逻辑回归原理推导
极大似然估计法与梯度下降法估计模型参数
- 极大似然估计
- 梯度下降法
逻辑回归与SVM的异同

sigmoid函数

sigmoid函数公式:
$\sigma(x)=\frac{1}{1+e^{-x}}$
当x趋近于负无穷时，函数值趋近于0；当x趋近于正无穷时，y趋近于1；当x= 0时，y=0.5。这种特征使得sigmoid函数很适合用来做二分类。
sigmoid函数求导:
$\begin{aligned} \sigma^{\prime}(x) &=\left(\frac{1}{1+e^{-x}}\right)^{\prime} \\\\ &=\frac{e^{-x}}{\left(1+e^{-x}\right)^{2}} \\\\ &=\frac{1}{\left(1+e^{-x}\right)}\frac{e^{-x}}{\left(1+e^{-x}\right)} \\\\ &=\sigma(x)(1-\sigma(x)) \end{aligned}$

逻辑回归原理推导

普通的线性回归的模型是求出输出特征向量Y和输入样本矩阵X之间的线性关系系数W和b，满足Y=WX+b。此时我们的Y是连续的，所以是回归模型。
如果我们想要Y是离散的话，怎么办呢？我们就用上面的sigmoid函数对Y再做一次变换，得到g（Y）。，我们把g（Y）大于等于0.5的看作类别1，小于0.5的看作类别0，这样得到了一个二分类模型。这就是逻辑回归模型。
sigmoid函数公式:
$g(z)=\frac{1}{1+e^{-z}}$
如果我们令
$z = w x + b$
可得逻辑回归模型的一般形式:
$h_{w,b}(x)=\frac{1}{1+e^{-(wx+b)}}$
下面我们进一步给出更加准确的逻辑回归定义。
二项逻辑回归模型定义为具有如下条件概率分布的模型:
$x)=\frac{\exp (w \cdot x+b)}{1+\exp (w \cdot x+b)}$
$x)=\frac{1}{1+\exp (w \cdot x+b)}$
x是输入（特征空间）,Y是输出标签，w和b为模型参数。注意看上面两式似乎和我们一开始介绍的不太一样？实际上我们将P（Y=1 | x）除以
为了方便表达，将b扩充入w ，同时输入x后加入一项全为1的列，使得
$\cdot x+b \Rightarrow w \cdot x$
此时有
$w=w_{1}, w_{2}, \cdots, w_{n}, b, x=x_{1}, x_{2}, \cdots, x_{n}, 1$
此时逻辑回归的条件概率分布如下:
$x)=\frac{\exp (w \cdot x)}{1+\exp (w \cdot x)}$
$)=\frac{1}{1+\exp (w \cdot x)}$
一个事件发生的几率指该事件发生的概率与不发生的概率的比值。
如果某一事件发生的概率为 p, 那么它发生的几率为
$\frac{p}{1-p}$
该事件发生的对数几率函数为
$logit(p)=\log \frac{p}{1-p}$
对于P（Y=1|x），其对数几率函数为
$\log \frac{P(Y=1 | x)}{1-P(Y=1 | x)}=w \cdot x$
也就是说，在逻辑回归模型中，输出Y=1的对数几率是输入x的线性函数。
或者说，通过逻辑回归模型条件概率分布式可以将线性函数wx转换为概率。线性函数wx的值越接近正无穷，概率值就越接近1；线性函数wx的值越接近负无穷，概率值就越接近0。

极大似然估计法与梯度下降法估计模型参数

极大似然估计

在逻辑回归中我们可以认为样本是伯努利分布（n重二项分布）。对于给定的训练集T:
$T=\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots ,\left(x_{N}, y_{N}\right)$
设
$x)=\pi(x), \quad P(Y=0 | x)=1-\pi(x)$
似然函数为:
$\prod_{i=1}^{N}\left[\pi\left(x_{i}\right)\right]^{y_{i}}\left[1-\pi\left(x_{i}\right)\right]^{1-y_{i}}$
对数似然函数为:
$\begin{aligned} L(w) &=\sum_{i=1}^{N}\left[y_{i} \log \pi\left(x_{i}\right)+\left(1-y_{i}\right) \log \left(1-\pi\left(x_{i}\right)\right)\right] \\\\ &=\sum_{i=1}^{N}\left[y_{i} \log \frac{\pi\left(x_{i}\right)}{1-\pi\left(x_{i}\right)}+\log \left(1-\pi\left(x_{i}\right)\right)\right] \\\\ &=\sum_{i=1}^{N}\left[y_{i}\left(w \cdot x_{i}\right)-\log \left(1+\exp \left(w \cdot x_{i}\right))\right]\right.\end{aligned}$
上面L（w）的第一步公式就是深度学习中常用的交叉熵损失函数形式。
这样我们只需要对L（w）求极大值，从而得到w的估计值即可。
如果w只有一个参数，我们可以用对L求w的导数，再令导数为0的方法，求出w的值，此时L（w）是一个极大值点。

梯度下降法

在深度学习模型中我们往往有多个w，此时用上面的方法很难解出w，此时我们往往采用梯度下降法或拟牛顿法进行多轮迭代寻找w的估计值:
先求L对某个wi的梯度:
$\frac{\partial L(w)}{\partial w_{i}}=y_{i} x_{i}-\frac{\exp \left(w \cdot x_{i}\right) \cdot x_{i}}{1+\exp \left(w\cdot x_{i}\right)} =\left(y_{i}-\frac{1}{1+\exp (-w \cdot x)}\right) x_{i}$
wi参数更新公式:
$w_{i}=w_{i}-\eta \frac{\partial L(w)}{\partial w_{i}}=w_{i}-\eta \left(y_{i}-\frac{1}{1+\exp (-w \cdot x)}\right) x_{i},(i=1,2, \cdots, n)$

逻辑回归与SVM的异同

相同点:

lr和SVM都是分类算法;
如果不考虑核函数，则lr和SVM都是线性分类算法；
lr和SVM都是监督学习算法；
lr和SVM都是判别模型，计算的是P（Y|X）；

不同点:

lr和SVM的损失函数不同。逻辑回归方法基于概率理论，假设样本为1的概率可以用sigmoid函数来表示，然后通过极大似然估计的方法估计出参数的值；支持向量机基于几何间隔最大化原理，认为存在最大几何间隔的分类面为最优分类面；
SVM只考虑边界线附近的少数点（支持向量），而逻辑回归考虑全局所有点（远离的点对边界线的确定也起作用）。影响SVM决策面的样本点只有少数的支持向量，当在支持向量外添加或减少任何样本点对分类决策面没有影响；而在lr中，每个样本点都会影响决策面的结果。因此线性SVM不直接依赖于数据分布，分类平面不受某类点影响；lr则受所有数据点的影响，如果数据不同类别十分不平衡，则一般需要先对数据做平衡采样。
解决非线性问题时，支持向量机采用核函数的机制，而lr通常不采用核函数的方法。因为模型训练的过程就是决策面的计算过程，计算决策面时，SVM算法中只有少数几个代表支持向量的样本参与了计算，即只有少数几个样本需要参与核计算（即kernal machine解的系数是稀疏的）；而lr算法中，每个样本点都必须参与决策面的计算过程，假如我们在lr里也运用核函数的原理，那么每个样本点都必须参与核计算，计算量十分大。因此在具体应用时，lr很少运用核函数机制。
线性SVM依赖数据表达的距离测度，所以需要对数据先做归一化；而lr计算的是概率，归一化可以加快模型收敛速度，如果不归一化，只要训练的足够充分，其最终结果也先相同。
SVM的损失函数中自带了正则项（1/2||w||2），而lr本身不带正则项，我们必须在损失函数上另外添加正则项。

一骑走烟尘

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归（Logistic Regression）原理

文章目录sigmoid函数逻辑回归原理推导极大似然估计法与梯度下降法估计模型参数极大似然估计梯度下降法sigmoid函数sigmoid函数公式:σ(x)=11+e−x \sigma(x)=\frac{1}{1+e^{-x}} σ(x)=1+e−x1当x趋近于负无穷时，函数值趋近于0；当x趋近于正无穷时，y趋近于1；当x= 0时，y=0.5。这种特征使得sigmoid函数很适合用来做二...
复制链接

扫一扫

专栏目录