逻辑斯蒂回归与最大熵模型----《统计学习方法》第6章

最新推荐文章于 2023-12-04 19:18:35 发布

Icevivina

最新推荐文章于 2023-12-04 19:18:35 发布

阅读量260

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/zhouhong0284/article/details/79552558

版权

机器学习算法专栏收录该内容

19 篇文章 0 订阅

订阅专栏

逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。
学习算法：改进的迭代尺度算法和拟牛顿法。

逻辑斯蒂回归模型

逻辑斯蒂分布

分布函数 $F(x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}$ 属于逻辑斯蒂函数，形状是一条S形曲线，曲线以 $（\mu,1/2）$ 为中心对称点。 $\mu$ 越小，曲线在中心附近增长越快。

二项逻辑斯蒂回归

二项逻辑斯蒂回归模型： $P(Y=1|x)=\frac{{\rm exp}(w \cdot x)}{1+{\rm exp}(w \cdot x)}=\frac{1}{1+{\rm exp}(-w\cdot x)}$ , $P(Y=0|x)=\frac{1}{1+{\rm exp}(w \cdot x)}$
一个事件的几率(odd)是指该事件发生的概率与该事件不发生的概率的比值。对逻辑斯蒂回归而言，对数几率为： ${\log\frac{P(Y=1|X)}{1-P(Y=1|X)}}=w\cdot x$ ,也就是说在逻辑斯蒂回归模型中输出Y=1的对数几率是输出x的线性函数。在已知这个线性函数之后，我们又可以反推得到 $P (Y = 1 ∣ x)$ ，这时，线性函数的值越接近正无穷，概率值就越接近1；线性函数的值越接近负无穷，概率值越接近0.

模型参数估计

参数估计采用极大似然估计，假设模型为伯努利二值模型，也就是 $P(Y=1|x)=\pi(x),P(Y=0|x)=1-\pi(x)$ ,那么得出似然函数为 $\prod_{i=1}^N[\pi(x_i)]^{y_i}[1-\pi(x_i)]^{1-y_i}$
对数似然函数化简之后为： $L(w)=\sum_{i=1}^N[ y_i\log (\pi(x_i))+(1-y_i)\log(1-\pi(x_i))]$ 对数似然函数求最大值得到w的估计值。求最大似然的最大值也可以转换为求-L的最小值，LR的损失函数就是负的对数似然函数。
这样，问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯蒂回归学习中通常采用的方法是梯度下降法及拟牛顿法。
假设w的极大似然估计为 $\hat w$ ，那么学习到的逻辑斯蒂回归模型为： $P(Y=1|x)=\frac{{\rm exp}(\hat w \cdot x)}{1+{\rm exp}(\hat w \cdot x)}=\frac{1}{1+{\rm exp}(-\hat w\cdot x)}$ , $P(Y=0|x)=\frac{1}{1+{\rm exp}(\hat w \cdot x)}$ .
扩展：逻辑斯蒂回归的损失函数为 $\rm cost(\pi( x_i),y_i)=-y_i\log (\pi(x_i))-(1-y_i)\log(1-\pi(x_i))$ .从公式可以看出，当y=1时， $\pi(x_i)$ 越接近1损失函数越小；y=0时， $\pi(x_i)$ 越接近0损失函数越小。因此极大似然函数的最大化对应于损失函数最小化。

多项逻辑斯蒂回归模型

可以由二项逻辑斯蒂模型扩展出

最大熵模型

模型学习的最优化算法

逻辑斯蒂回归模型、最大熵模型学习归结为以似然函数为目标函数的最优化问题，通常通过迭代求解。常用方法有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法。牛顿法或拟牛顿法一般收敛速度更快。

改进的迭代尺度法

拟牛顿法

牛顿法和拟牛顿法也是求解无约束最优化问题的常用方法，有收敛速度快的优点。牛顿法是迭代算法，每一步需要求解目标函数的海塞矩阵的逆矩阵，计算比较复杂。拟牛顿法通过正定矩阵近似海塞矩阵的逆矩阵或海塞矩阵，简化了这一计算过程。
牛顿法：先对需要最小化的函数f(x)在点 $x^{(k)}$ 处做二阶泰勒展开：
$f(x)=f(x^{(k)})+g_k^T(x-x^{(k)})+\frac{1}{2}(x-x^{(k)})^TH(x^{(k)})(x-x^{(k)})$
这里， $g_k$ 是f(x)的梯度向量在点 $x^{(k)}$ 的值， $H(x^{(k)})$ 是f(x)的海塞矩阵 $H(x)=[\frac{\partial^2f}{\partial x_i \partial y_j}]_{n\times n}$ 在点 $x^{(k)}$ 的值。
函数 $f (x)$ 有极值的必要条件是在极值点处一阶导数为0，即梯度向量为0.利用二阶泰勒展开的公式求导可得：
$\nabla f(x)=g_k+H_k(x-x^{(k)})$
令其导数为0，则有 $g_k+H_k(x^{(k+1)}-x^{(k)})=0$ 因此有 $x^{(k+1)}=x^{(k)}-H_k^{-1}g_k$ ,用这个迭代式求极小值的算法就称为牛顿法。
牛顿法中计算海塞矩阵的逆矩阵比较复杂，因此考虑用一个n阶矩阵 $G_k=G(x^{(k)})$ 来近似替代海塞矩阵的逆矩阵。

扩展总结：

1.假设函数的由来
在逻辑回归中， $p(y|x;\theta)$ 服从伯努利分布，也就是 $p(y=1|x)=\phi,p(y=0|x)=1-\phi$ ,因此 $p(y,\phi)=\phi^y(1-\phi)^{1-y}$ ,与广义线性模型中假设对比得到： $h_\theta(x)=\frac{1}{1+e^{-w\cdot x}}$
2.梯度下降法求解损失函数的推导（这里的 $\pi(x_i)$ = $h_\theta(x)$ ）
损失函数为： $L(w)=-\sum_{i=1}^N[ y_i\log (\pi(x_i))+(1-y_i)\log(1-\pi(x_i))]$
对于单个点 $x_i,y_i)$ 而言，损失函数对w求导有：
$\frac{L(y_i,\hat y_i)}{\partial w}=-y_i\cdot\frac{1}{\pi(x_i)}\cdot\frac{ \partial \pi(x_i)}{ \partial w}+(1-y_i)\frac{1}{1-\pi(x_i)}\cdot\frac{ \partial \pi(x_i)}{ \partial w}\\= (-y_i\cdot\frac{1}{\pi(x_i)}+(1-y_i)\frac{1}{1-\pi(x_i)})\cdot\frac{ \partial \pi(x_i)}{ \partial w}\\=\frac{h_\theta(x)-y}{h_\theta(x)(1-h_\theta(x))}\cdot h_\theta(x)(1-h_\theta(x))\cdot x_i\\=(h_\theta(x_i)-y_i)x_i$

Icevivina

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑斯蒂回归与最大熵模型----《统计学习方法》第6章

逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。学习算法：改进的迭代尺度算法和拟牛顿法。逻辑斯蒂回归模型逻辑斯蒂分布分布函数F(x)=11+e−(x−μ)/γF(x)=11+e−(x−μ)/γF(x)=\frac{1}{1+e^{-(x-\mu)/\gamma}}属于逻辑斯蒂函数，形状是一条S形曲线，曲线以（μ,1/2）（μ,1/2）（\mu,1/2）为中心对称点。μμ\mu越小，曲线...
复制链接

扫一扫

专栏目录