Logistic Regression(LR) 算法原理简介

最新推荐文章于 2024-09-10 14:26:22 发布

XiaomengYe

最新推荐文章于 2024-09-10 14:26:22 发布

阅读量2.9k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/xiaomeng29/article/details/89326697

版权

机器学习专栏收录该内容

13 篇文章

订阅专栏

作为机器学习算法中比较基础的LR算法，其在多个领域发挥着重要的作用，下面我们就来对其算法原理以及特点做一下总结。

Logistic Regression 基本原理

LR算法是典型的判别模型，即给定数据x，要求概率P(y|x)。假设我们有m个样本点集合 $\left \{ x^{(1)},x^{(2)},...,x^{(m)} \right \}$ ，对应的标记为 $\left \{ y^{(1)},y^{(2)},...,y^{(m)} \right \}$ 。

1. LR的二分类算法

我们假定给定数据x和模型参数 $\theta$ ，标记y服从伯努利分布，即 $y;x,\theta \sim Bernoulli$ 。因为我们做的是二分类，所以这个假设是非常直观的，但伯努利参数是多少？也就是当y=1的时候，p(y=1|x)是多少？下面的一个假设解决这个问题，它是基于GLM（广义线性模型，这里不做讨论）的，即：

$y;x,\theta \sim Bernoulli(g(\theta^Tx))$

这里g是sigmoid函数 $g(x) = \frac{1}{1 - e^{-x}}$ ，上面的式子也可以表达为

$p(y=1;x,\theta) = g(\theta^Tx)$
现在我们为每个样本的概率建立了模型，利用MLE（最大似然法），就可以求取相关参数 $\theta$ 。对于似然函数log likelihood $L(\theta) = \sum_{i=1}^m log(p(y=1;x^{(i)},\theta)^{y^{(i)}} p(y=0;x^{(i)},\theta)^{1 - y^{(i)}} )$ ，求 $argmax_{\theta} L(\theta)$ 。我们首先可以求其解析解，另外，也可以通过梯度下降（当然这里是要求最大值，所以是梯度上升）的方法求取参数（本问题中L是关于 $\theta$ 的凸函数，所以可以找到全局最优解）。本文讨论第二种方法，梯度下降法关键是要求出 $\frac{\partial L}{\partial \theta}$ ：

$\frac{\partial L}{\partial \theta} \\ =\frac{\partial \sum_{i=1}^m y^{(i)}log(p(y=1;x^{(i)},\theta) + (1 - y^{(i)})log()p(y=0;x^{(i)},\theta)))}{\partial \theta} \\ =(\sum_{i=1}^m y^{(i)} \frac{1}{g}g(1-g) + (1-y^{(i)} )\frac{1}{1-g}-g(1-g) )x\\ = (\sum_{i=1}^m (y^{(i)} - g))x$

为表达方便上式中用代替 $g(\theta^Tx^{(i)})$ 。

大家注意到，如果训练样本很大，即m是个非常大的数字，那么梯度下降法的每一步都会消耗很大的计算资源，有没有一种计算方便的改进算法呢？这就是随机梯度下降，同样这里也不做详述。

2. LR的多分类算法

和二分类情况类似的，我们仍然可以假设 $y;x,\theta \sim Categorical(u_1,u_2,...,u_k)$ 。不同的是这里y不再是0或者1，而是一个向量，例如样本隶属于第二分类，则 y = [0,1,0,...,0] 。我们仍然对模型做基于GML上的假设， $u_i = e^{\theta_i^Tx}$ ，即每个类别i都有自己的参数 $\theta_i$ ：