Logistic 回归推导

最新推荐文章于 2022-08-25 22:31:58 发布

micro小宝

最新推荐文章于 2022-08-25 22:31:58 发布

阅读量2.2k

点赞数

分类专栏：数据挖掘文章标签： Logistic 回归机器学习逻辑斯谛回归线性回归

本文链接：https://blog.csdn.net/wxbmelisky/article/details/50847342

版权

数据挖掘专栏收录该内容

4 篇文章 1 订阅

订阅专栏

Logistic 回归是机器学习中经典的分类方法，常见的二项 Logistic 回归模型是一种二项分类模型，由条件概率分布 $P(Y|X)$ 表示，形式为参数化的Logistic 分布。为了更好地理解 Logistic 回归，我们先从线性回归开始说起。
假设有 $m$ 个样本点，记为{ $(x^{(i)},y^{(i)}),i=1,2,3...,m$ }，其中 $x$ 为输入变量， $y$ 为输出变量。每个样本点输入变量 $x^{(i)}$ 都有 $n$ 个特征，分别是 $x^{(i)}_{1},x^{(i)}_{2},x^{(i)}_{3},...,x^{(i)}_{n}$ 。对于所有样本点我们用线性回归模型去拟合这些样本点，对于二维来说模型是一条直线，对于多维是一个超平面。
设线性回归模型为 $h_{\theta}(x)=\theta_{0}+\theta_{1}x_{1}+\theta_{2}x_{2}+\ldots+\theta_{n}x_{n}$ ，记 $\vec \theta=(\theta_{0},\theta_{1},\theta_{2},...,\theta_{n})^{T},\quad\vec x=(1,x_{1},x_{2},...,x_{n})^{T}$ ，那么模型可以写成 $h_{\theta}(x)=\vec \theta^{T}\vec x$ 。
当然我们知道模型的估计值 $\theta^{T}x^{(i)}$ 与实际值 $y^{(i)}$ 之间是有误差的，我们即为 $\varepsilon^{(i)}$ ，因此可得 $y^{(i)}=\theta^{T}x^{(i)}+\varepsilon^{(i)}$ ，根据中心极限定理，误差 $\varepsilon^{(i)}(1≤i≤m)$ 是独立同分布的，服从均值为0，方差为某定值 $\sigma^{2}$ 的高斯分布（高斯分布即正态分布），因而 $\varepsilon^{(i)}$ 的概率分布为：

p (ε (i)) = 1 2 π - - \sqrt σ e x p (- ( ε ( i ) ) 2 2 σ 2)

$p(\varepsilon^{(i)})=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(\varepsilon^{(i)})^{2}}{2\sigma^{2}})$ 将

ε(i) $\varepsilon^{(i)}$ 替换成

y(i)−θTx(i) $y^{(i)}-\theta^{T}x^{(i)}$ 可得：

p (y (i) | x (i); θ) = 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$p(y^{(i)}|x^{(i)};\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma^{2}})$ 根据极大似然估计，该分布的似然函数为：

L (θ) = \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2)

$L(\theta)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma^{2}})$ 取对数为：

log L (θ) = log \prod i = 1 m 1 2 π - - \sqrt σ e x p (- ( y ( i ) - θ T x ( i ) ) 2 2 σ 2) = m log 1 2 π - - \sqrt σ - 1 σ 2 \cdot 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

$\log L(\theta)=\log \prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y^{(i)}-\theta^{T}x^{(i)})^{2}}{2\sigma^{2}})=m\log \frac{1}{\sqrt{2\pi}\sigma}-\frac{1}{\sigma^{2}}\cdot \frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^{2}$ 我们令：

J (θ) = 1 2 \sum i = 1 m (y (i) - θ T x (i)) 2

$J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^{2}$ 因此要求

L(θ) $L(\theta)$ 的极大值，即可求

J(θ) $J(\theta)$ 的极小值，事实上

J(θ)=12∑mi=1(y(i)−θTx(i))2 $J(\theta)=\frac{1}{2}\sum_{i=1}^{m}(y^{(i)}-\theta^{T}x^{(i)})^{2}$ 即为最小二乘。

Logistic 函数（或叫 Sigmoid 函数）为 $g(x)=\frac{1}{1+e^{-x}}$ ，它的函数图像如下：
这里写图片描述
它的值域为[0, 1]，这是一个很好的性质，我们可以认为他是一个概率分布，这是 Logistic 回归的关键。还有，对 $g(x)$ 求导结果如下（大家可以自己证明）：