机器学习系列2：从线性回归到逻辑回归

最新推荐文章于 2024-07-17 00:46:41 发布

咋找不到昵称

最新推荐文章于 2024-07-17 00:46:41 发布

阅读量488

点赞数

分类专栏：机器学习文章标签：线性回归逻辑回归

本文链接：https://blog.csdn.net/x_lingbai/article/details/80051458

版权

机器学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

该系列将整理机器学习相关知识。这篇博客主要讨论:
1 线性回归与最小二乘法
2 逻辑斯谛回归：逻辑斯谛回归的定义、损失函数、推导
3 广义线性模型

1 线性回归

线性回归的目的是用一条曲线拟合数据，常用于在房价、股票预测等。这里将从误差的概率分布解释线性回归。假设线性回归的预测值和真实值表示为：

y i = θ T x i + ε i

$y^i=\theta^Tx^i + \varepsilon^i$

在线性回归中，假设误差 $\varepsilon^i$ 是独立同分布（误差有大有小，并且服从正太分布），并且服从均值为0，方差为 $\theta^2$ 的高斯分布,则有：

p (ε i) = 1 2 π δ ‾ ‾ ‾ ‾ \sqrt e x p (- ( ε i ) 2 2 δ 2)

$p(\varepsilon^i) = \frac{1}{\sqrt{2\pi\delta} } exp(-\frac{(\varepsilon^i)^2}{2\delta^2})$
合并上面两个式子，则有

p (y i | x i; θ) = 1 2 π δ ‾ ‾ ‾ ‾ \sqrt e x p (- ( y i - θ T x i ) 2 2 δ 2)

$p(y^i|x^i;\theta) = \frac{1}{\sqrt{2\pi\delta} } exp(-\frac{(y^i-\theta^Tx^i)^2}{2\delta^2})$
假设样本集合大小为m，可以用极大似然估计对参数

θ θ $\theta$ 进行估计，在线性回归中似然函数可以表示为：

L (θ) = \prod i = 1 m (p (y i | x i; θ) = \prod i = 1 m 1 2 π δ ‾ ‾ ‾ ‾ \sqrt e x p (- ( y i - θ T x i ) 2 2 δ 2)

$L(\theta) = \prod_{i=1}^{m}( p(y^i|x^i;\theta) =\prod_{i=1}^{m} \frac{1}{\sqrt{2\pi\delta} } exp(-\frac{(y^i-\theta^Tx^i)^2}{2\delta^2})$
对数似然函数（将乘法转换为加法）：

l (θ) = \sum i = 1 m log 1 2 π δ ‾ ‾ ‾ ‾ \sqrt e x p (- ( y i - θ T x i ) 2 2 δ 2)

$l(\theta) = \sum_{i=1}^{m} \log \frac{1}{\sqrt{2\pi\delta} } exp(-\frac{(y^i-\theta^Tx^i)^2}{2\delta^2})$

= m log (1 2 π δ ‾ ‾ ‾ ‾ \sqrt) - 1 2 δ 2 \sum i = 1 m (y i - θ T x i) 2

$=m \log( \frac{1}{\sqrt{2\pi\delta}}) - \frac{1}{2\delta^2 } \sum_{i=1}^{m} (y^i-\theta^Tx^i)^2$
由上式子可以得到目标函数（求极小值）：

J (θ) = 1 2 \sum i = 1 m (y i - θ T x i) 2

$J(\theta) = \frac{1}{2}\sum_{i=1}^{m} (y^i-\theta^Tx^i)^2$
这个式子就是 线性回归的最小二乘法。

2 logistic regression

2.1 模型假设

逻辑斯谛回归是一种用于分类的机器学习算法，虽然叫回归，但实际上是用来做分类的，其本质上是一种线性模型。其假设模型是：

h θ (x) = g (θ T x)

$h_{\theta}(x) = g(\theta ^T x)$
其中，

g(z)=11+e−z g ( z ) = 1 1 + e − z $g(z) = \frac{1}{1+e^{-z}}$ ,则有：

h θ (x) = 1 1 + e - θ T x

$h_{\theta}(x) = \frac{1}{1+e^{-\theta ^T x}}$
其中，

hθ(x) h θ ( x ) $h_{\theta}(x)$ 表示分类为正样本的概率，即

hθ(x)=p(y=1|x;θ) h θ ( x ) = p ( y = 1 | x ; θ ) $h_{\theta}(x) = p(y=1 | x;\theta)$ 。以上只是得出了样本点是正例的概率，到底预测它是正例还是负例，我们还需要一个 decision boundary，例如：

h θ (x) \geq 0.5 \to y = 1 h θ (x) < 0.5 \to y = 0

$h_{\theta}(x) \ge 0.5 \rightarrow y=1 \ h_{\theta}(x) \lt 0.5 \rightarrow y=0$
由逻辑斯谛函数的性质，可得到：

θ T x \geq 0 \to y = 1, θ T x < 0 \to y = 0

$\theta ^T x \ge 0 \rightarrow y=1 , \theta ^T x \lt 0 \rightarrow y=0$

2.2 极大似然估计

二元分类可以看成一个伯努利分布，即0-1分布，上面提到

p (y = 1 | x; θ) = h θ (x)

$p(y=1 | x;\theta)=h_{\theta}(x)$

p (y = 0 | x; θ) = 1 - h θ (x)

$p(y=0 | x;\theta)= 1- h_{\theta}(x)$
合并上述式子则有：

p (y | x; θ) = (h θ (x)) y (1 - h θ (x i)) (1 - y)

$p(y | x;\theta) = (h_{\theta}(x))^y (1 - h_{\theta}(x^i))^{(1-y)}$
由极大释然估计，假设所有样本独立同分部，将它们的概率相乘得到似然函数：

L (θ) = \prod i = 1 m ((h θ (x i)) y i (1 - h θ (x i)) (1 - y i))

$L(\theta) = \prod_{i=1}^{m}((h_{\theta}(x^i))^{y^i} (1 - h_{\theta}(x^i))^{(1-y^i)})$
取对数得到对数似然函数:

l (θ) = \sum i = 1 m (y i log (h θ (x i)) + (1 - y i) (1 - h θ (x i)))

$l(\theta) = \sum_{i=1}^{m} (y^i \log(h_{\theta}(x^i)) + (1-y^i) (1 - h_{\theta}(x^i)) )$

2.3 逻辑回归的损失函数

逻辑斯谛回归的损失函数定义为：

J (θ) = 1 m \sum i = 1 m (C o s t (h θ (x i)), y i)

$J(\theta) = \frac{1}{m}\sum_{i=1}^{m} (Cost(h_{\theta}(x^i)), y^i)$
其中：

C o s t (h θ (x), y) = - log (h θ (x)) i f y = 1; C o s t (h θ (x), y) = - log (1 - h θ (x)) i f y = 0

$Cost(h_{\theta}(x), y) = -\log(h_{\theta}(x)) \ \ if \ \ y=1 \ ;Cost (h_{\theta}(x), y) = -\log(1 - h_{\theta}(x)) \ \ if \ \ y=0$
结合两个式子，则简写为：

C o s t (h θ (x), y) = - y log (h θ (x)) - (1 - y) log (1 - h θ (x))

$Cost(h_{\theta}(x), y) = - y \log(h_{\theta}(x)) - (1-y) \log(1 - h_{\theta}(x))$
用图像表示为：

可以直观的看到，就是概率预测的和标签越接近惩罚越小，反之越大。当然，这里讲的只是二元分类，标签不是0就是1.

最后，逻辑回归的损失函数为

J (θ) = - 1 m \sum i = 1 m (y i log (h θ (x i)) + (1 - y i) log (1 - h θ (x i))

$J(\theta) = - \frac{1}{m} \sum_{i=1}^{m} (y^i \log(h_{\theta}(x^i)) + (1-y^i) \log (1-h_{\theta}(x^i))$

2.4 梯度下降优化过程

使用梯度下降进行优化：

θ j = θ j - α \partial J ( θ ) \partial θ j

$\theta_j = \theta_j - \alpha \frac{\partial J(\theta)}{\partial \theta_j}$
其中：

J (θ) = - 1 m \sum i = 1 m (y i log (g (z)) + (1 - y i) log (1 - g (z))

$J(\theta) = - \frac{1}{m} \sum_{i=1}^{m} (y^i \log(g(z)) + (1-y^i) \log (1-g(z))$

\partial J ( θ ) \partial θ j = - 1 m \sum i = 1 m (y i g ( z ) \partial g ( z ) θ j - 1 - y i 1 - g ( z ) \partial g ( z ) θ j)

$\frac{\partial J(\theta)}{\partial \theta_j} = - \frac{1}{m} \sum_{i=1}^{m} ( \frac{y^i}{g(z)} \frac{\partial g(z)}{\theta_j} - \frac{1-y^i}{1-g(z)} \frac{\partial g(z)}{\theta_j})$

= - 1 m \sum i = 1 m y i - g ( z ) g ( z ) ( 1 - g ( z ) ) \partial g ( z ) θ j

$= - \frac{1}{m} \sum_{i=1}^{m} \frac{y^i - g(z)}{g(z)(1-g(z))} \frac{\partial g(z)}{\theta_j}$

\partial g ( z ) θ j = g (z) (1 - g (z) x i j

$\frac{\partial g(z)}{\theta_j} = g(z)(1-g(z)x_j^i$
带入上式即可都得到

\partial J ( θ ) \partial θ j = 1 m \sum i = 1 m (h θ (x i) - y i) x i j

$\frac{\partial J(\theta)}{\partial \theta_j} = \frac{1}{m} \sum_{i=1}^{m}(h_{\theta}(x^i)-y^i)x_j^i$
这就是逻辑斯谛回归的梯度下降更新式子：

θ j = θ j - α 1 m \sum i = 1 m (h θ (x i) - y i) x i j

$\theta_j = \theta_j - \alpha \frac{1}{m} \sum_{i=1}^{m}(h_{\theta}(x^i)-y^i)x_j^i$

3 广义线性模型GLM

讨论广义线性模型之前，先问下为什么逻辑斯谛回归中要使用sigmod(x)函数？
本质上，线性回归和逻辑回归都是广义线性模型的特例。具体推导参考知乎文章广义线性模型和为什么 LR 模型要使用 sigmoid 函数，背后的数学原理是什么？

4 参考

咋找不到昵称

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习系列2：从线性回归到逻辑回归

1 误差分析假设线性回归的预测值和真实值表示为： yi=θTxi+εiyi=θTxi+εiy^i=\theta^Tx^i + \varepsilon^i 在线性回归中，假设误差εiεi\varepsilon^i是独立同分布（误差有大有小，并且服从正太分布），并且服从均值为0，方差为θ2θ2\theta^2的高斯分布,则有： p(εi)=12πδ‾‾‾‾√exp(−(εi)22δ2)p(...
复制链接

扫一扫