应用机器学习（四）：Logistic 回归

最新推荐文章于 2024-05-28 17:00:30 发布

Goodsta

最新推荐文章于 2024-05-28 17:00:30 发布

阅读量1.8k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wong2016/article/details/71744556

版权

Logistic 回归，也称logit 回归，是一个因变量是类别型变量的回归模型。
在这里，我们介绍0-1型因变量的情况，即，因变量只取0或1，可以表示例如
成功/失败、输/赢、存活/死亡、健康/患病等状态。Logistic 回归广泛应用
于机器学习、医学和社会科学领域。例如，在临床医疗中，根据观测的患者各项指标，如性别、年龄、身体质量指数(BMI )和血液检测等，预测该患者是否患糖尿病。再例如，在美国选举的民调预测，根据选民的年龄、性别、种族、收入、居住地和以往选举的投票情况，预测选民将投票支持民主党还是共和党。

Logit 回归模型

设自变量组成的输入向量 $\mathbf{x}$ ，因变量 $y$ 是二值的，即， $y\in \{ 0, 1\}$ . 回归模型

y = f (x) + ε

$y = f(\mathbf{x}) + \varepsilon$
在随机误差

ε $\varepsilon$ 零均值的假设下，即，

E(ε)=0 $E (\varepsilon)=0$ ，有

f (x) = E (y | x) = P (y = 1 | x)

$f(\mathbf{x})=E (y\,|\,\mathbf{x})=\mathcal{P} (y=1\,|\,\mathbf{x})$
易见，回归函数

f(x)∈[0,1] $f(\mathbf{x})\in [ 0,\,1 ]$ ，所以使用 logit 函数代替。

Logit 函数，也称 sigmoid 函数，定义为

l o g i t (η) = 1 1 + e - η = e η e η + 1, η \in R

$logit(\eta)=\dfrac{1}{1+e^{-\eta}}=\dfrac{e^{\eta}}{e^{\eta}+1},\,\eta\in\mathbb{R}$

[-6, 6]内的logit曲线

显然， logit 函数在

R $\mathbb{R}$ 上是单调增加的，不妨设

ζ = l o g i t (η) = 1 1 + e - η = e η e η + 1

$\zeta = logit(\eta)=\dfrac{1}{1+e^{-\eta}}=\dfrac{e^{\eta}}{e^{\eta}+1}$
则反函数为

η=lnζ1−ζ $\eta = \ln \dfrac{\zeta}{1-\zeta}$

现在，假设 $\eta$ 是输入向量 $\mathbf{x}$ 的线性组合，即， $\eta=\beta^{T}\mathbf{x}$ ，有

E (y | x) = P (y = 1 | x) = l o g i t (β T x)

$E (y\,|\,\mathbf{x})=\mathcal{P} (y=1\,|\,\mathbf{x})=logit( \beta^{T}\mathbf{x} )$

简记 $p=\mathcal{P}( y=1\,|\,\mathbf{x} )=logit( \beta^{T}\mathbf{x} )$ .
现在，定义 logit 函数的逆 $y$ ，得到

y = ln p 1 - p = β T x

$y=\ln \dfrac{p}{1-p}=\beta^{T}\mathbf{x}$
这样，就得到了一般的线性回归。

交叉熵误差函数

熵 (Entropy )

设一个随机变量 $X$ ，分布为 $p$ ，定义

H (X) = - Σ x p (x) log p (x)

$\mathbb{H}( X )=-\mathop{\Sigma}_{x} p(x) \log p(x)$

称 $\mathbb{H} (X)$ 为 $X$ 的熵(entropy )，有时也记为 $\mathbb{H} ( p )$ ，用它来度量 $X$ (或分布 $p$ )的不确定性。

交叉熵 (cross entropy )

设定义在相同事件集上的两个概率分布 $p,\, q$ ，称

H (p, q) = - Σ x p (x) log q (x)

$\mathbb{H} ( p,\,q )=-\mathop{\Sigma}_{x} p( x ) \log q ( x )$

为分布 $p,\, q$ 的交叉熵。

交叉熵在信息论的意义是，当我们用分布 $q$ 作为“代码书”，编码来自分布 $p$ 的数据所用的平均比特(bit )数。

交叉熵最小原则

交叉熵最小化(cross-entropy minimization )经常用于模型优化和稀有事件概率估计。
假设比较分布 $q$ 和一个固定的参考分布 $p$ ，可以证明

H (p, q) \geq H (p) ， 当 且 仅 当 p = q

$\begin{align*} \mathbb{H} ( p,\,q ) \ge \mathbb{H} ( p )，\qquad \text{当且仅当} \,\,\, p = q \end{align*}$
因此，在 logistic 回归中，可以用交叉熵作为损失函数来优化模型。

参数的最大似然估计

已知样本 $( \mathbf{x}_i,\, y_i )$ , $i=1,2,\dots,n.\, y_i\in\{ 0, 1 \}$ . 则

p i = P (y i = 1 | x i) = l o g i t (β T x i) = e β ' x i e β ' x i + 1

$p_i = \mathcal{P} ( y_i = 1 \,|\,\mathbf{x}_i ) = logit ( \beta^{T}\mathbf{x}_i )= \dfrac{e^{\beta'\mathbf{x}_i}}{e^{\beta'\mathbf{x}_i}+1}$

由 yi

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
应用机器学习（四）：Logistic 回归

本讲介绍Logistic回归及其在分类问题中的应用。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。