深入理解逻辑回归（logisitc regression）

最新推荐文章于 2025-03-25 16:55:27 发布

QueenieK

最新推荐文章于 2025-03-25 16:55:27 发布

阅读量8.5k

点赞数 4

分类专栏：机器学习文章标签：逻辑回归

本文链接：https://blog.csdn.net/yingfengfeixiang/article/details/79631638

版权

机器学习专栏收录该内容

28 篇文章

订阅专栏

逻辑回归（logisitc regression）

逻辑回归（logisitc regression）

1.逻辑分布

定义：连续变量X服从逻辑分布，分布函数表示为：

F (x) = 1 1 + e - ( θ T x + b ) (1)

$F(x)=\frac{1}{1+e^{-(θ^Tx+b)}}(1)$
分布函数图形为S形曲线，即为Sigmoid Logistic Function，表示为下图：
这里写图片描述

在实际应用中，F(X)函数表示为

F (x) = 1 1 + e - θ T x (2)

$F(x)=\frac{1}{1+e^{-θ^Tx}} (2)$

2.逻辑回归模型概念

a.假设有模型 $P(Y=1|x)=F(x)=\frac{1}{1+e^{-θ^Tx}}$ 在已知输入x的情况下，判断此输入为1类的概率是多少。
b.而在此概率模型中，若想求得概率P，只有参数 $θ^T$ 不知道。
c.如何求得参数 $θ^T$ ，就需要估计参数值。参数估计方法则采用在模型已知，参数未知的情况下的极大似然估计。
d.若采用极大似然估计方法来估计参数，那么就需要给出似然函数。在整个模型训练中，似然函数如何表示？问题转化成如何表达极大似然估计函数

3.极大似然估计

（1）训练样本
假设我们有5个训练样本，样本集为
$\{(x_1,y_1=1),(x_2,y_2=0),(x_3,y_3=1),(x_4,y_4=0),(x_5,y_5=1)\}$
则要满足5个样本的总的分布概率，有：
$P=P(Y=1|x=x_1)P(Y=0|x=x_2)P(Y=1|x=x_3)P(Y=0|x=x_4)P(Y=1|x=x_5)$
要计算P的值，从而确定极大似然函数。
(2)极大似然函数
a.极大似然估计求解步骤：

写出似然函数；
对似然函数求log
对log函数求导数
令导数等于0，求参数

b.设逻辑回归模型：

P (Y = 1 | x) = h θ (x)

$P(Y=1|x)=h_θ(x)$

P (Y = 0 | x) = 1 - h θ (x)

$P(Y=0|x)=1-h_θ(x)$
则似然函数表示为：

L (θ) = \prod i = 1 m [(h θ (x i)] y i [1 - h θ (x i)] 1 - y i (3)

$L(θ)=\prod_{i=1}^m[(h_θ(x_i)]^{y_i}[1-h_θ(x_i)]^{1-y_i}(3)$
对数似然函数为：

l (θ) = log (L (θ)) = \sum i = 1 m (y i log (h θ (x i) + (1 - y i) log (1 - h θ (x i))) (4)

$l(θ)=\log(L(θ))=\sum_{i=1}^m(y_i\log(h_θ(x_i)+(1-y_i)\log(1-h_θ(x_i)))(4)$
即要求得

l(θ) l ( θ ) $l(θ)$ 取得最大值时的θ的值。 问题转换成对极大似然函数的最优化问题。

4.代价函数与损失函数

代价函数 $cost()$ 可以用对数似然函数公式(4)表示。
代价函数是用来寻找最优解的目标函数。
令代价函数 $cost()$ 和损失函数 $J(θ)$ 表示为：
这里写图片描述
可以看出损失函数：

J (θ) = - 1 m l (θ)

$J(θ)=-\frac{1}{m}l(θ)$
问题转换为使得损失函数最小时的参数θ的值。求损失函数极小值，采用梯度下降方法。
为了推导公式简单，在梯度下降求解之前，我们先介绍对数几率（log odds）或lofit函数

5.对数几率（log odds）

逻辑回归模型如下：

P (Y = 1 | x) = e θ T x 1 + e θ T x （ 5 ）

$P(Y=1|x)=\frac{e^{θ^Tx}}{1+e^{θ^Tx}}（5）$

P (Y = 0 | x) = 1 1 + e θ T x （ 6 ）

$P(Y=0|x)=\frac{1}{1+e^{θ^Tx}}（6）$
几率定义：一个事件的几率（odds）是指该事件发生的概率p与该事件不发生的概率1-p的比值

p1−p p 1 − p $\frac{p}{1-p}$ .
对数几率即对几率求对数

logit(p)=logp1−p l o g i t ( p ) = log ⁡ p 1 − p $logit(p)=\log\frac{p}{1-p}$ .
由公式(5)、（6）得

l o g P ( Y = 1 | x ) 1 - P ( Y = 1 | x ) = θ T x

$log\frac{P(Y=1|x)}{1-P(Y=1|x)}=θ^Tx$
对数几率将在下面的推导中用到

6.梯度下降

由第4部分，得到损失函数 $J(θ)$

J (θ) = - 1 m \sum i = 1 m [y i log (h θ (x i) + (1 - y i) log (1 - h θ (x i))]

$J(θ)=-\frac{1}{m}\sum_{i=1}^m[y_i\log(h_θ(x_i)+(1-y_i)\log(1-h_θ(x_i))]$

= - 1 m \sum i = 1 m [y i l o g h θ ( x i ) 1 - h θ ( x i ) + l o g (1 - h θ (x i))]

$=-\frac{1}{m}\sum_{i=1}^m[y_ilog\frac{h_θ(x_i)}{1-h_θ(x_i)}+log(1-h_θ(x_i))]$

= - 1 m \sum i = 1 m [y i (θ T x i) - l o g (1 + e θ T x i)]

$=-\frac{1}{m}\sum_{i=1}^m[y_i(θ^Tx_i)-log(1+e^{θ^Tx_i})]$
梯度函数：

\partial J ( θ ) \partial θ = - 1 m \sum i = 1 m [y i x i - 1 1 + e θ x i e θ x i x i]

$\frac{∂J(θ)}{∂θ}=-\frac{1}{m}\sum_{i=1}^m[y_ix_i-\frac{1}{1+e^{θx_i}}e^{θx_i}~x_i]$

= - 1 m \sum i = 1 m (y i - h θ (x i)) x i

$=-\frac{1}{m}\sum_{i=1}^m(y_i-h_θ(x_i))x_i$

= 1 m \sum i = 1 m (h θ (x i) - y i) x i

$=\frac{1}{m}\sum_{i=1}^m(h_θ(x_i)-y_i)x_i$
梯度迭代：
Repeat{

θ j : = θ j - α \partial J ( θ ) \partial θ j

$θ_j:=θ_j-\alpha\frac{∂J(θ)}{∂θ_j}$
}
最终找到极小值，从而确定

θT θ T $θ^T$

7.LR如何处理过拟合问题？

1.什么是过拟合？
就是训练出的样本可以很好的适应所有的训练样本，但是不能对测试样本很好的预测，这就是过拟合。
2.解决过拟合的方法有两个:
(1)降维，使用PCA降维，使使得模型 $\theta$ 个数减少，次数也降低，避免了过拟合
(2)正则化。增加正则化项
对于LR添加L1正则项或者L2正则项。

L1正则化会导致参数值变为0，但是L2却只会使得参数值减小，这是因为L1的导数是固定的，参数值每次的改变量是固定的，而L2会由于自己变小改变量也变小。