《统计学习方法》第六章逻辑斯蒂回归与最大熵模型学习笔记

最新推荐文章于 2022-05-28 13:58:19 发布

常山赵匡胤

最新推荐文章于 2022-05-28 13:58:19 发布

阅读量2.5k

点赞数

分类专栏：统计学习方法机器学习文章标签：统计学习方法机器学习逻辑回归逻辑斯蒂回归

本文链接：https://blog.csdn.net/wjlucc/article/details/69264144

版权

机器学习同时被 2 个专栏收录

9 篇文章 0 订阅

订阅专栏

统计学习方法

8 篇文章 0 订阅

订阅专栏

一、逻辑斯蒂回归模型

1. 二项逻辑斯蒂回归模型

二项逻辑斯蒂回归模型是如下的条件概率分布：

P (Y = 1 | x) = exp ( w \cdot x + b ) 1 + exp ( w \cdot x + b )

$P(Y=1|x)=\frac{\exp{(w \cdot x+b)}}{1+\exp(w\cdot x+b)}$

P (Y = 0 | x) = 1 1 + exp ( w \cdot x + b )

$P(Y=0|x)=\frac{1}{1+\exp(w\cdot x+b)}$
注意：

P(Y=1|x) $P(Y=1|x)$ 模型也经常写成

hθ(x)=11+exp(−θT⋅x) $h_\theta(x)=\frac{1}{1+\exp(-\theta^T\cdot x)}$ 。
事件的 几率（odds）是指该事件发生的概率与该事件不发生的概率的比值。
如果事件发生的概率是p，那么该事件的几率是

P1−P $\frac{P}{1-P}$ ，该事件的对数几率（log odds）或logit函数是：

logit(P)=logp1−p $logit(P)=\log\frac{p}{1-p}$ 。
逻辑回归的对数几率是：

log (P ( Y = 1 | x ) 1 - P ( Y = 1 | x )) = w \cdot x

$\log(\frac{P(Y=1|x)}{1-P(Y=1|x)})=w\cdot x$
意义：在逻辑斯蒂回归模型中，输出Y=1的对数几率是输入x的线性函数。或者说，输出Y=1的对数几率是由属于x的线性函数表示的模型，即逻辑斯蒂回归模型。（这里需要再理解下）
感知机只通过决策函数（

w⋅x $w\cdot x$ ）的符号来判断属于哪一类。逻辑斯蒂回归需要再进一步，它要找到分类概率

P(Y=1) $P(Y=1)$ 与输入向量x的直接关系，再通过比较概率值来判断类别。
令决策函数（

w⋅x $w\cdot x$ ）输出值等于概率值比值取对数，即：

l o g p 1 - p = w \cdot x ⟹ p = exp ( w \cdot x + b ) 1 + exp ( w \cdot x + b )

$log\frac{p}{1-p}=w\cdot x\Longrightarrow p=\frac{\exp{(w \cdot x+b)}}{1+\exp(w\cdot x+b)}$
逻辑斯蒂回归模型的定义式

P(Y=1|x) $P(Y=1|x)$ 中可以将线性函数

w⋅x $w\cdot x$ 转换为概率，这时，线性函数的值越接近正无穷，概率值就越接近1；线性函数的值越接近负无穷，概率值就接近0.

2. 模型参数估计

应用极大似然法进行参数估计，从而获得逻辑斯蒂回归模型。极大似然估计的数学原理参考这里。
设： $P(Y=1|x)=\pi(x), P(Y=0|x)=1-\pi(x)$
似然函数为：

\prod i = 1 N [π (x i)] y i [1 - π (x i)] 1 - y i

$\prod_{i=1}^N{[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}}$
上式连乘符号内的两项中，每个样本都只会取到两项中的某一项。若该样本的实际标签

yi=1 $y_i=1$ ，取样本计算为1的概率值

π(xi) $\pi(x_i)$ ；若该样本的实际标签

yi=0 $y_i=0$ ，取样本计算的为0的概率值

1−π(xi) $1-\pi(x_i)$ 。
对数似然函数为：

L (w) = = = = \sum i = 1 N [y i log π (x i) + (1 - y i) log (1 - π (x i))] \sum i = 1 N [y i log π ( x i ) 1 - π ( x i ) + log (1 - π (x i))] \sum i = 1 N [y i (w \cdot x i) + log 1 1 + exp ( w \cdot x i )] \sum i = 1 N [y i (w \cdot x i) - log (1 + exp (w \cdot x i))]

$\begin{eqnarray*}L(w) & = & \sum\limits_{i=1}^N[y_i\log{\pi(x_i)+(1-y_i)\log{(1-\pi(x_i))}}] \\ &=&\sum\limits_{i=1}^N[y_i\log{\frac{\pi(x_i)}{1-\pi(x_i)}}+\log{(1-\pi(x_i))}]\\ &=&\sum\limits_{i=1}^N[y_i(w\cdot x_i )+\log{\frac{1}{1+\exp{(w\cdot x_i)}}}]\\ &=&\sum\limits_{i=1}^N[y_i(w\cdot x_i )-\log{(1+\exp{(w\cdot x_i)})}] \end{eqnarray*}$
对上式中的

L(w) $L(w)$ 求极大值，得到

w $w$ 的估计值。
问题转化成以对数似然函数为目标函数的无约束最优化问题，通常采用梯度下降法以及拟牛顿法求解

w $w$ 。
假设

w $w$ 的极大估计值是

wˆ $\widehat{w}$ ，那么学到的逻辑斯蒂回归模型为：

P (Y = 1 | x) = exp ( w ˆ \cdot x ) 1 + exp ( w ˆ \cdot x )

$P(Y=1|x)=\frac{\exp{(\widehat{w} \cdot x)}}{1+\exp(\widehat{w}\cdot x)}$

P (Y = 0 | x) = 1 1 + exp ( w ˆ \cdot x )

$P(Y=0|x)=\frac{1}{1+\exp(\widehat{w}\cdot x)}$

3. 多项逻辑斯蒂回归

多项逻辑斯蒂回归用于多分类问题，其模型为：

P (Y = k | x) = exp ( w k \cdot x ) 1 + \sum k = 1 K - 1 exp ( w k \cdot x ), k = 1, 2, \dots, K - 1

$P(Y=k|x)=\frac{\exp{(w_k \cdot x)}}{1+\sum\limits_{k=1}^{K-1}\exp(w_k\cdot x)},k=1,2,\cdots,K-1$

P (Y = K | x) = 1 1 + \sum k = 1 K - 1 exp ( w k \cdot x )

$P(Y=K|x)=\frac{1}{1+\sum\limits_{k=1}^{K-1}\exp(w_k\cdot x)}$
上面的公式和二分类的类似，式中

k $k$ 的取值只能取到

K−1 $K-1$ 。

4. 交叉熵损失函数的求导

逻辑回归的另一种理解是以交叉熵作为损失函数的目标最优化。交叉熵损失函数可以从上文最大似然推导出来。
交叉熵损失函数为：

y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i)))

$y^{(i)}\log(h_\theta(x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))$
则可以得到目标函数为：

J (θ) = = - 1 m \sum i = 1 m y (i) log (h θ (x (i))) + (1 - y (i)) log (1 - h θ (x (i))) - 1 m \sum i = 1 m [y (i) θ T x (i) - log (1 + e θ T x (i))]

$\begin{eqnarray*}J(\theta)&=&-\frac{1}{m}\sum_{i=1}^{m}y^{(i)}\log(h_\theta(x^{(i)}))+(1-y^{(i)})\log(1-h_\theta(x^{(i)}))\\ &=&-\frac{1}{m}\sum_{i=1}^m \left[y^{(i)}\theta^T x^{(i)}-\log(1+e^{\theta^T x^{(i)}})\right] \end{eqnarray*}$

计算J(θ)对第j个参数分量 $\theta_j$ 求偏导:

\partial \partial θ j J (θ) = = = = \partial \partial θ j (1 m \sum i = 1 m [log (1 + e θ T x (i)) - y (i) θ T x (i)]) 1 m \sum i = 1 m [\partial \partial θ j log (1 + e θ T x (i)) - \partial \partial θ j (y (i) θ T x (i))] 1 m \sum i = 1 m ⎛ ⎝ x ( i ) j e θ T x ( i ) 1 + e θ T x ( i ) - y (i) x (i) j ⎞ ⎠ 1 m \sum i = 1 m (h θ (x (i)) - y (i)) x (i) j

$\begin{eqnarray*}\frac{\partial}{\partial\theta_{j}}J(\theta) &=&\frac{\partial}{\partial\theta_{j}}\left(\frac{1}{m}\sum_{i=1}^m \left[\log(1+e^{\theta^T x^{(i)}})-y^{(i)}\theta^T x^{(i)}\right]\right)\\ &=&\frac{1}{m}\sum_{i=1}^m \left[\frac{\partial}{\partial\theta_{j}}\log(1+e^{\theta^T x^{(i)}})-\frac{\partial}{\partial\theta_{j}}\left(y^{(i)}\theta^T x^{(i)}\right)\right]\\ &=&\frac{1}{m}\sum_{i=1}^m \left(\frac{x^{(i)}_je^{\theta^T x^{(i)}}}{1+e^{\theta^T x^{(i)}}}-y^{(i)}x^{(i)}_j\right)\\ &=&\frac{1}{m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})x_j^{(i)} \end{eqnarray*}$