【统计学习方法】第6章逻辑斯谛回归

最新推荐文章于 2021-12-05 23:04:54 发布

gkm0120

最新推荐文章于 2021-12-05 23:04:54 发布

阅读量161

点赞数

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/weixin_45839039/article/details/113346198

版权

logistic regression

统计学习方法专栏收录该内容

11 篇文章 2 订阅

订阅专栏

逻辑斯谛回归（logistic regression）是统计学习中的经典分类方法.最大熵是概率模型学习的一个准则，将其推广到分类问题得到最大熵模型（maximum entropy model）。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。

1、逻辑斯缔回归模型

逻辑斯缔分布

设 $X$ 是连续随机变量， $X$ 服从逻辑斯缔分布(logistic distribution)是指 $X$ 具有下列分布函数和密度函数:
$\begin{array}{l} F(x)=P(X \leqslant x)=\frac{1}{1+\mathrm{e}^{-(x-\mu) / \gamma}} \\ \\ f(x)=F^{\prime}(x)=\frac{\mathrm{e}^{-(x-\mu) / \gamma}}{\gamma\left(1+\mathrm{e}^{-(x-\mu) / \gamma}\right)^{2}} \end{array}$

式中， $\mu$ 为位置参数, $\gamma>0$ 为形状参数.

二项逻辑斯谛回归模型

二项逻辑斯谛回归模型是如下的条件概率分布： $\begin{aligned} & P \left( Y = 1 | x \right) = \dfrac{1}{1+\exp{-\left(w \cdot x + b \right)}} \\ &\quad\quad\quad\quad = \dfrac{\exp{\left(w \cdot x + b \right)}}{\left( 1+\exp{-\left(w \cdot x + b \right)}\right) \cdot \exp{\left(w \cdot x + b \right)}} \\ &\quad\quad\quad\quad = \dfrac{\exp{\left(w \cdot x + b \right)}}{1+\exp{\left( w \cdot x + b \right)}}\\& P \left( Y = 0 | x \right) = 1- P \left( Y = 1 | x \right) \\ & \quad\quad\quad\quad=1- \dfrac{\exp{\left(w \cdot x + b \right)}}{1+\exp{\left( w \cdot x + b \right)}} \\ &\quad\quad\quad\quad=\dfrac{1}{1+\exp{\left( w \cdot x + b \right)}}\end{aligned}$ 其中， $\in R^{n}$ 是输入， $\in \left\{ 0, 1 \right\}$ 是输出， $\in R^{n}$ 和 $\in R$ 是参数， $w$ 称为权值向量， $b$ 称为偏置， $\cdot x$ 为 $w$ 和 $b$ 的内积。

可将权值权值向量和输入向量加以扩充，即 $\left( w^{\left(1\right)},w^{\left(2\right)},\cdots,w^{\left(n\right)},b \right)^{T}$ ， $\left( x^{\left(1\right)},x^{\left(2\right)},\cdots,x^{\left(n\right)},1 \right)^{T}$ ，则逻辑斯谛回归模型： $\begin{aligned} & P \left( Y = 1 | x \right) = \dfrac{\exp{\left(w \cdot x \right)}}{1+\exp{\left( w \cdot x \right)}}\\& P \left( Y = 0 | x \right) =\dfrac{1}{1+\exp{\left( w \cdot x \right)}}\end{aligned}$

一个事件的几率是指事件发生的概率 $p$ 与事件不发生的概率 $1 - p$ 的比值，即 $\begin{aligned} & \dfrac{p}{1-p}\end{aligned}$

该事件的对数几率（logit函数） $\begin{aligned} & logit\left( p \right) = \log \dfrac{p}{1-p}\end{aligned}$

对于逻辑斯谛回归模型 $\begin{aligned} & \log \dfrac{P \left( Y = 1 | x \right)}{1-P \left( Y = 1 | x \right)} = w \cdot x\end{aligned}$

即输出 $Y = 1$ 的对数几率是输入 $x$ 的线性函数。

模型参数估计

给定训练数据集 $\begin{aligned} &T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\} \end{aligned}$

其中， $x_{i} \in R^{n+1}, y_{i} \in \left\{ 0, 1 \right\}, i = 1, 2, \cdots, N$ 。

设： $\begin{aligned} & P \left( Y =1 | x \right) = \pi \left( x \right) ,\quad P \left( Y =0 | x \right) = 1 - \pi \left( x \right) \end{aligned}$
似然函数 $\begin{aligned} &l \left( w \right) = \prod_{i=1}^{N} P \left( y_{i} | x_{i} \right) \\ &= P \left( Y = 1 | x_{i} , w \right) \cdot P \left( Y = 0 | x_{i}, w \right) \\ &= \prod_{i=1}^{N} \left[ \pi \left( x_{i} \right) \right]^{y_{i}}\left[ 1 - \pi \left( x_{i} \right) \right]^{1 - y_{i}}\end{aligned}$

对数似然函数 $\begin{aligned} & L \left( w \right) = \log l \left( w \right) \\ &= \sum_{i=1}^{N} \left[ y_{i} \log \pi \left( x_{i} \right) + \left( 1 - y_{i} \right) \log \left( 1 - \pi \left( x_{i} \right) \right) \right] \\ &= \sum_{i=1}^{N} \left[ y_{i} \log \dfrac{\pi \left( x_{i} \right)}{1- \pi \left( x_{i} \right)} + \log \left( 1 - \pi \left( x_{i} \right) \right) \right] \\ &= \sum_{i=1}^{N} \left[ y_{i} \left( w \cdot x_{i} \right) - \log \left( 1 + \exp \left( w \cdot x \right) \right) \right]\end{aligned}$

假设 $w$ 的极大似然估计值是 $\hat{w}$ ，则学到的逻辑斯谛回归模型 $\begin{aligned} & P \left( Y = 1 | x \right) = \dfrac{\exp{\left(\hat{w} \cdot x \right)}}{1+\exp{\left( \hat{w} \cdot x \right)}}\\& P \left( Y = 0 | x \right) =\dfrac{1}{1+\exp{\left( \hat{w} \cdot x \right)}}\end{aligned}$

多项逻辑斯谛回归

假设离散型随机变量 $Y$ 的取值集合 $\left\{ 1, 2, \cdots, K \right\}$ ，则多项逻辑斯谛回归模型 $\begin{aligned} & P \left( Y = k | x \right) = \dfrac{\exp{\left(w_{k} \cdot x \right)}}{1+ \sum_{k=1}^{K-1}\exp{\left( w_{k} \cdot x \right)}}, \quad k=1,2,\cdots,K-1 \\ & P \left( Y = K | x \right) = 1 - \sum_{k=1}^{K-1} P \left( Y = k | x \right) \\ &= 1 - \sum_{k=1}^{K-1} \dfrac{\exp{\left(w_{k} \cdot x \right)}}{1+ \sum_{k=1}^{K-1}\exp{\left( w_{k} \cdot x \right)}} \\ &= \dfrac{1}{1+ \sum_{k=1}^{K-1}\exp{\left( w_{k} \cdot x \right)}}\end{aligned}$

2、最大熵

最大熵模型（maximum entropy model）由最大熵原理推导实现。最大熵原理是概率模型学习的一个准则.最大熵原理认为，学习概率模型时，在所有可能的概率模型（分布）中，熵最大的模型是最好的模型。通常用约束条件来确定概率模型的集合，所以最大熵原理也可以表述为在满足约束条件的模型集合中选取熵最大的模型。

最大熵模型的定义

训练数据集 $\begin{aligned} & T = \left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\} \end{aligned}$

假设分类模型是条件概率分布 $\left( Y | X \right), X \in \mathcal{X} \subseteq R^{n}$ 表示输入， $\in \mathcal{Y}$ 表示输出。给定输入 $X$ ，以条件概率 $\left( Y | X \right)$ 输出 $Y$ 。

特征函数 $\left( x, y \right)$ 描述输入 $x$ 和输出 $y$ 之间的某一事实， $\begin{aligned} f \left( x, y \right) = \left\{ \begin{aligned} \ & 1, x与y满足某一事实 \\ & 0, 否则 \end{aligned} \right.\end{aligned}$

特征函数 $\left( x, y \right)$ 关于经验分布 $\tilde{P} \left( X, Y \right)$ 的期望 $\begin{aligned} & E_{ \tilde{P} } \left( f \right) = \sum_{x, y} \tilde{P} \left( x, y \right) f \left( x, y \right) \end{aligned}$

特征函数 $\left( x, y \right)$ 关于模型 $\left( Y | X \right)$ 与经验分布 $\tilde{P} \left( X \right)$ 的期望 $\begin{aligned} & E_{ P } \left( f \right) = \sum_{x, y} \tilde{P} \left( x \right) P \left( y | x \right) f \left( x, y \right) \end{aligned}$

最大熵模型：假设满足所有约束条件的模型集合为 $\begin{aligned} & \mathcal{C} \equiv \left\{ P \in \mathcal{P} | E_{ P } \left( f_{i} \right) = E_{ \tilde{P} } \left( f_{i} \right), i = 1,2, \cdots, n \right\}\end{aligned}$

定义在条件概率分布 $\left( Y | X \right)$ 上的条件熵为
$\begin{aligned} & H \left( P \right) = - \sum_{x,y} \tilde{P} \left( x \right) P \left( y | x \right) \log P \left( y | x \right) \end{aligned}$

则模型集合 $\mathcal{C}$ 中条件熵 $\left( P \right)$ 最大的模型称为最大熵模型。

最大熵模型的学习

给定训练数据集 $\left\{ \left( x_{1}, y_{1} \right), \left( x_{2}, y_{2} \right), \cdots, \left( x_{N}, y_{N} \right) \right\}$ 以及特征函数 $f_{i} \left( x, y \right), i = 1, 2, \cdots, n$ ，最大熵模型的学习等价于最优化问题：
$\begin{aligned} \max_{P \in \mathcal{C} } \quad & H \left( P \right) = - \sum_{x,y} \tilde{P} \left( x \right) P \left( y | x \right) \log P \left( y | x \right) \\ s.t.\quad & E_{ P } \left( f_{i} \right) = E_{ \tilde{P} } \left( f_{i} \right), i = 1,2, \cdots, n \\ & \sum_{y} P \left( y | x \right) = 1 \end{aligned}$

等价的
$\begin{aligned} \min_{P \in \mathcal{C} } \quad & -H \left( P \right) = \sum_{x,y} \tilde{P} \left( x \right) P \left( y | x \right) \log P \left( y | x \right) \\ s.t.\quad & E_{ P } \left( f_{i} \right) - E_{ \tilde{P} } \left( f_{i} \right) = 0, i = 1,2, \cdots, n \\ & \sum_{y} P \left( y | x \right) = 1 \end{aligned}$

最优化问题的求解：

引入拉格朗日乘子 $w_{i}, i = 0,1, \cdots, n$ ，定义拉格朗日函数 $\left( P, w \right)$ $\begin{aligned} & L \left( P, w \right) = - H \left( P \right) + w_{0} \left( 1 - \sum_{y} P \left( y | x \right) \right) + \sum_{i=1}^{n} w_{i} \left( E_{P} \left( f_{i} \right) - E_{\tilde{P}} \left( f_{i} \right) \right) \\ & = \sum_{x,y} \tilde{P} \left( x \right) P \left( y | x \right) \log P \left( y | x \right) + w_{0} \left( 1 - \sum_{y} P \left( y | x \right) \right) \\ & \quad + \sum_{i=1}^{n} w_{i} \left( \sum_{x, y} \tilde{P} \left( x \right) P \left( y | x \right) f_{i} \left( x, y \right) - \sum_{x, y} \tilde{P} \left( x, y \right) f_{i} \left( x, y \right) \right) \end{aligned}$
求 $\min_{P \in \mathcal{C} } L \left( P, w \right)$ :

记对偶函数 $\Psi \left( w \right) = min_{P \in \mathcal{C} } L \left( P, w \right) = L \left( P_{w}, w \right)$ ，其解记 $P_{w} = \arg \min_{P \in \mathcal{C} } L \left( P, w \right) = P_{w} \left( y | x \right)$ $\begin{aligned} & \dfrac {\partial L \left( P, w \right)} {\partial P \left( y | x \right)} = \sum_{x,y} \tilde{P} \left( x \right) \left( \log P \left( y | x \right) + 1 \right) - \sum_{y} w_{0} - \sum_{x,y} \left( \tilde{P} \left( x \right) \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) \\ & \quad = \sum_{x,y} \tilde{P} \left( x \right) \left( \log P \left( y | x \right) + 1 \right) - \sum_{x,y} P \left( x \right) w_{0} - \sum_{x,y} \left( \tilde{P} \left( x \right) \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) \\ & \quad = \sum_{x,y} \tilde{P} \left( x \right) \left( \log P \left( y | x \right) + 1 - w_{0} - \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) = 0\end{aligned}$

由于 $\tilde{P} \left( x \right) \gt 0$ ，得 $\begin{aligned} & \log P \left( y | x \right) + 1 - w_{0} - \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right)=0 \\ & P \left( y | x \right) = \exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) + w_{0} -1 \right) = \dfrac{ \exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) }{ \exp \left( 1 - w_{0} \right)}\end{aligned}$

由于 $\sum_{y} P \left( y | x \right) = 1$ ，则 $\begin{aligned} &\sum_{y} P \left( y | x \right) = \sum_{y} \dfrac{ \exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) }{ \exp \left( 1 - w_{0} \right)} = 1 \\ & \sum_{y} \exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) = \exp \left( 1 - w_{0} \right)\end{aligned}$

代入，得 $\begin{aligned} & P \left( y | x \right) = \dfrac{1 }{Z_{w} \left( x \right)}\exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) \end{aligned}$

其中 $\begin{aligned} Z_{w} = \sum_{y} \exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) \end{aligned}$

$Z_{w}$ 称为规范化因子； $f_{i} \left( x, y \right)$ 是特征函数； $w_{i}$ 是特征的权值。
求 $\max_{w} \Psi \left( w \right)$
将其解记为 $w^{*}$ ，即 $\begin{aligned} w^{*} = \arg \max_{w} \Psi \left( w \right) \end{aligned}$

这就是说，可以应用最优化算法求对偶函数 $\Psi(w)$ 的极大化，得到 $w^{*}$ ，用来表示 $P^{*} \in \mathcal{C} .$ 这里, $P^{*}=P_{w^{*}}=P_{w^{*}}(y \mid x)$ 是学习到的最优模型（最大嫡模型）. 也就是说，最大嫡模型的学习归结为对偶函数 $\Psi(w)$ 的极大化.

极大似然估计

已知训练数据的经验概率分布 $\tilde{P} \left( X, Y \right)$ ，则条件概率分布 $\left( X | Y \right)$ 的对数似然函数 $\begin{aligned} & L_{\tilde{P}} \left( P_{w} \right) = \log \prod_{x,y} P \left( y | x \right)^{\tilde{P} \left( x, y \right)} \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \log P \left( y | x \right) \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \log \dfrac{\exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right)}{Z_{w} \left( x \right) } \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) - \sum_{x,y} \tilde{P} \left( x, y \right) \log Z_{w} \left( x \right) \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) - \sum_{x} \tilde{P} \left( x \right) \log Z_{w} \left( x \right)\end{aligned}$

对偶函数 $\begin{aligned} & \Psi \left( w \right) = min_{P \in \mathcal{C} } L \left( P, w \right) = L \left( P_{w}, w \right) \\ & = - H \left( P_{w} \right) + w_{0} \left( 1 - \sum_{y} P_{w} \left( y | x \right) \right) + \sum_{i=1}^{n} w_{i} \left( E_{\tilde{P}} \left( f_{i} \right) - E_{P_{w}} \left( f_{i} \right) \right) \\ & = \sum_{x,y} \tilde{P} \left( x \right) P_{w} \left( y | x \right) \log P_{w} \left( y | x \right) \\& \quad\quad\quad + w_{0} \left( 1 - \sum_{y} \dfrac{1 }{Z_{w} \left( x \right)}\exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) \right) \\ & \quad\quad\quad + \sum_{i=1}^{n} w_{i} \left( \sum_{x, y} \tilde{P} \left( x, y \right) f_{i} \left( x, y \right) - \sum_{x, y} \tilde{P} \left( x \right) P_{w} \left( y | x \right) f_{i} \left( x, y \right) \right) \\ & = \sum_{x, y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) + \sum_{x,y} \tilde{P} \left( x \right) P_{w} \left( y | x \right) \left( \log P_{w} \left( y | x \right) - \sum_{i=1}^{n} w_{i} f_{i} \left(x, y \right) \right) \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) - \sum_{x,y} \tilde{P} \left( x, y \right) \log Z_{w} \left( x \right) \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) - \sum_{x} \tilde{P} \left( x \right) \log Z_{w} \left( x \right)\end{aligned}$

得 $\begin{aligned} & L_{\tilde{P}} \left( P_{w} \right) = \Psi \left( w \right)\end{aligned}$

即，最大熵模型的极大似然估计等价于对偶函数极大化。

改进的迭代尺度法

已知最大熵模型 $\begin{aligned} & P_{w} \left( y | x \right) = \dfrac{1 }{Z_{w} \left( x \right)}\exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) \end{aligned}$

其中 $\begin{aligned} Z_{w} = \sum_{y} \exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right) \end{aligned}$

$Z_{w}$ 称为规范化因子； $f_{i} \left( x, y \right)$ 是特征函数； $w_{i}$ 是特征的权值。

对数似然函数 $\begin{aligned} & L \left( w \right) = \sum_{x,y} \tilde{P} \left( x, y \right) \log P_{w} \left( y | x \right) \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) - \sum_{x} \tilde{P} \left( x \right) \log Z_{w} \left( x \right) \end{aligned}$

IIS 的想法是: 假设最大嫡模型当前的参数向量是 $w=\left(w_{1}, w_{2}, \cdots, w_{n}\right)^{\mathrm{T}}$ ，我们希望找到一个新的参数向量 $w+\delta=\left(w_{1}+\delta_{1}, w_{2}+\delta_{2}, \cdots, w_{n}+\delta_{n}\right)^{\mathrm{T}},$ 使得模型的对数
似然函数值增大. 如果能有这样一种参数向量更新的方法 $\tau: w \rightarrow w+\delta$ ，那么就可以重复使用这一方法，直至找到对数似然函数的最大值.

对于给定的经验分布 $\tilde{P}$ ，模型参数从 $w$ 到 $\delta$ ，对数似然函数的改变量 $\begin{aligned} & L \left( w + \delta \right) - L \left( w \right) = \sum_{x,y} \tilde{P} \left( x, y \right) \log P_{w + \delta} \left( y | x \right) - \sum_{x,y} \tilde{P} \left( x, y \right) \log P_{w} \left( y | x \right) \\ & = \left( \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} \left( w_{i} + \delta_{i} \right) f_{i} \left( x, y \right) - \sum_{x} \tilde{P} \left( x \right) \log Z_{w + \delta} \left( x \right) \right) \\ & \quad\quad\quad\quad\quad\quad - \left( \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) - \sum_{x} \tilde{P} \left( x \right) \log Z_{w} \left( x \right) \right) \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) - \sum_{x} \tilde{P} \left( x \right) \log \dfrac{Z_{w + \delta} \left( x \right)}{Z_{w} \left( x \right)}\end{aligned}$

由 $\begin{aligned} - \log \alpha \geq 1 - \alpha, \alpha > 0 \end{aligned}$

得 $\begin{aligned} & L \left( w + \delta \right) - L \left( w \right) \geq \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) + 1 - \sum_{x} \tilde{P} \left( x \right) \dfrac{Z_{w + \delta} \left( x \right)}{Z_{w} \left( x \right)} \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) + 1 - \sum_{x} \tilde{P} \left( x \right) \dfrac{\sum_{y} \exp \left( \sum_{i=1}^{n} \left( w_{i} + \delta_{i} \right) f_{i} \left( x, y \right) \right)}{\sum_{y} \exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right)} \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) + 1 - \sum_{x} \tilde{P} \left( x \right) \sum_{y} \dfrac{ \exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right)}{\sum_{y} \exp \left( \sum_{i=1}^{n} w_{i} f_{i} \left( x, y \right) \right)} \exp \left( \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) \right) \\ & = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) + 1 - \sum_{x} \tilde{P} \left( x \right) \sum_{y} P_{w} \left( y | x \right) \exp \left( \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) \right)\end{aligned}$

记 $\begin{aligned} & A \left( \delta | w \right) = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) + 1 - \sum_{x} \tilde{P} \left( x \right) \sum_{y} P_{w} \left( y | x \right) \exp \left( \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) \right)\end{aligned}$

则
$\begin{aligned} & L \left( w + \delta \right) - L \left( w \right) \geq A \left( \delta | w \right)\end{aligned}$

即 $\left( \delta | w \right)$ 是对数似然函数改变量的一个下界。

如果能找到适当的 $\delta$ 使下界 $A(\delta \mid w)$ 提高，那么对数似然函数也会提高. 然而，函数 $A(\delta \mid w)$ 中的 $\delta$ 是一个向量，含有多个变量，不易同时优化. IIS 试图一次只优化其中一个变量 $\delta_{i},$ 而固定其他变量 $\delta_{i}, \quad i \neq j .$

引入 $\begin{aligned} & f^{\#} \left( x, y \right) = \sum_{i} f_{i} \left( x, y \right) \end{aligned}$

表示所有特征在 $\left( x, y \right)$ 出现的次数则 $\begin{aligned} & A \left( \delta | w \right) = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) + 1 - \sum_{x} \tilde{P} \left( x \right) \sum_{y} P_{w} \left( y | x \right) \exp \left( f^{\#} \left( x, y \right) \sum_{i=1}^{n} \dfrac{\delta_{i} f_{i} \left( x, y \right) }{f^{\#} \left( x, y \right) } \right)\end{aligned}$

对任意 $i$ ，有 $\dfrac{f_{i} \left( x, y \right)}{f^{\#} \left( x, y \right)} \geq 0$ 且 $\sum_{i=1}^{n} \dfrac{f_{i} \left( x, y \right)}{f^{\#} \left( x, y \right)} = 1$ ,
根据Jensen不等式，得
$\begin{aligned} & \exp \left( \sum_{i=1}^{n} \dfrac{f_{i} \left( x, y \right)}{f^{\#} \left( x, y \right)} \delta_{i} f_{\#} \left( x, y \right) ) \right) \leq \sum_{i=1}^{n} \dfrac{f_{i} \left( x, y \right)}{f^{\#} \left( x, y \right)} \exp \left( \delta_{i} f^{\#} \left(x, y\right) \right)\end{aligned}$

则 $\begin{aligned} & A \left( \delta | w \right) \geq \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) + 1 - \sum_{x} \tilde{P} \left( x \right) \sum_{y} P_{w} \left( y | x \right) \sum_{i=1}^{n} \left( \dfrac{f_{i} \left( x, y \right)}{f^{\#} \left( x, y \right)} \right) \exp \left( \delta_{i} f^{\#} \left(x, y\right) \right)\end{aligned}$

记 $\begin{aligned} & B \left( \delta | w \right) = \sum_{x,y} \tilde{P} \left( x, y \right) \sum_{i=1}^{n} \delta_{i} f_{i} \left( x, y \right) + 1 - \sum_{x} \tilde{P} \left( x \right) \sum_{y} P_{w} \left( y | x \right) \sum_{i=1}^{n} \left( \dfrac{f_{i} \left( x, y \right)}{f^{\#} \left( x, y \right)} \right) \exp \left( \delta_{i} f^{\#} \left(x, y\right) \right)\end{aligned}$

则
$\begin{aligned} & L \left( w + \delta \right) - L \left( w \right) \geq A \left( \delta | w \right) \geq B \left( \delta | w \right)\end{aligned}$

即 $\left( \delta | w \right)$ 是对数似然函数改变量的一个新的（相对不紧的）下界。

求 $\begin{aligned} & \dfrac {\partial B \left( \delta | w \right) }{\partial \delta_{i}} = \sum_{x,y} \tilde{P} \left( x, y \right) f_{i} \left( x, y \right) - \sum_{x} \tilde{P} \left( x \right) \sum_{y} P_{w} \left( y | x \right) f_{i} \left( x, y \right) \exp \left( \delta_{i} f^{\#} \left(x, y\right) \right)\end{aligned}$
令 $\dfrac {\partial B \left( \delta | w \right) }{\partial \delta_{i}} = 0$ ，得
$\begin{aligned} & \sum_{x,y} \tilde{P} \left( x, y \right) f_{i} \left( x, y \right) = \sum_{x, y} \tilde{P} \left( x \right) P_{w} \left( y | x \right) f_{i} \left( x, y \right) \exp \left( \delta_{i} f^{\#} \left(x, y\right) \right)\end{aligned}$

对 $\delta_{i}$ 求解可解得 $\delta$

改进的迭代尺度算法（IIS）：

输入：特征函数 $f_{i},i=1, 2, \cdots, n$ ，经验分布 $\tilde{P} \left( x, y \right)$ ，模型 $P_{w} \left( y | x \right)$
输出：最优参数值 $w_{i}^{*}$ ；最优模型 $P_{w^{*}}$

对所有 $\in \left\{ 1, 2, \cdots, n \right\}$ ，取 $w_{i} = 0$ ；
对每一 $\in \left\{ 1, 2, \cdots, n \right\}$
2.1. 令 $\delta_{i}$ 是方程 $\begin{aligned} & \sum_{x,y} \tilde{P} \left( x, y \right) f_{i} \left( x, y \right) = \sum_{x, y} \tilde{P} \left( x \right) P_{w} \left( y | x \right) f_{i} \left( x, y \right) \exp \left( \delta_{i} f^{\#} \left(x, y\right) \right) \end{aligned}$
的解

2.2. 更新 $w_{i}$ 的值 $\begin{aligned} & w_{i} \leftarrow w_{i} + \delta_{i}\end{aligned}$
如果不是所有 $w_{i}$ 都收敛，重复步骤2.

3、概要总结

逻辑斯谛回归(LR)是经典的分类方法

1．逻辑斯谛回归模型是由以下条件概率分布表示的分类模型。逻辑斯谛回归模型可以用于二类或多类分类。

$x)=\frac{\exp \left(w_{k} \cdot x\right)}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}, \quad k=1,2, \cdots, K-1$ $x)=\frac{1}{1+\sum_{k=1}^{K-1} \exp \left(w_{k} \cdot x\right)}$

这里， $x$ 为输入特征， $w$ 为特征的权值。

逻辑斯谛回归模型源自逻辑斯谛分布，其分布函数 $F (x)$ 是 $S$ 形函数。逻辑斯谛回归模型是由输入的线性函数表示的输出的对数几率模型。

2．最大熵模型是由以下条件概率分布表示的分类模型。最大熵模型也可以用于二类或多类分类。

$P_{w}(y | x)=\frac{1}{Z_{w}(x)} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$ $Z_{w}(x)=\sum_{y} \exp \left(\sum_{i=1}^{n} w_{i} f_{i}(x, y)\right)$

其中， $Z_w(x)$ 是规范化因子， $f_i$ 为特征函数， $w_i$ 为特征的权值。

3．最大熵模型可以由最大熵原理推导得出。最大熵原理是概率模型学习或估计的一个准则。最大熵原理认为在所有可能的概率模型（分布）的集合中，熵最大的模型是最好的模型。

最大熵原理应用到分类模型的学习中，有以下约束最优化问题：

$\begin{aligned} \min_{P \in \mathcal{C} } \quad & -H \left( P \right) = \sum_{x,y} \tilde{P} \left( x \right) P \left( y | x \right) \log P \left( y | x \right) \\ s.t.\quad & E_{ P } \left( f_{i} \right) - E_{ \tilde{P} } \left( f_{i} \right) = 0, i = 1,2, \cdots, n \\ & \sum_{y} P \left( y | x \right) = 1 \end{aligned}$