最大熵模型

最新推荐文章于 2024-02-09 00:32:58 发布

xholes

最新推荐文章于 2024-02-09 00:32:58 发布

阅读量557

点赞数 1

分类专栏：机器学习文章标签：最大熵模型机器学习优化算法最大熵原理

本文链接：https://blog.csdn.net/xholes/article/details/78304734

版权

机器学习专栏收录该内容

35 篇文章 7 订阅

订阅专栏

最大熵模型

最大熵模型由最大熵原理推导而来。最大熵原理是概率模型的学习的一个准则，最大熵原理认为，学习概率模型时，在所有概率模型中，熵最大的模型时最好的模型，通常利用约束条件来确定概率模型的集合。所以，最大熵原理也可表述为在满足约束条件的模型集合中选取熵最大的模型。

最大熵原理

假设离散随机变量 $X$ 的概率分布是 $P(X)$ ，则其熵为

H (P) = - \sum x P (x) log P (x)

$H(P)=-\sum_x{P(x)\log P(x)}$ 且满足不等式：

0 \leq H (P) \leq l o g | X |

$0\le H(P) \le log |X|$ ,其中等号当且仅当随机变量服从随机分布时右边的等号成立。直观地将，最大熵原理认为要选择的概率模型首先必须满足已有的事实，即在约束条件下，没有更多的额外条件前，哪些不确定的部分是“等可能的”。最大熵原理是通过熵的最大化来表示等可能性。

最大熵模型

给定一个训练集 $D=\{(x_1,y_1),(x_2,y_2),\cdots,(x_m.y_m)\}$ ，假设分类模型是一个概率分布 $P(Y|X)$ ； $X$ 表示输入，属于输入空间； $Y$ 表示输出，属于输出空间，分类模型的作用就是对于给定的输入以条件概率给出输出。学习的目标是使用最大熵原理选择最好的分类模型。

假设数据集 $D$ 的联合分布 $P(X,Y)$ 的经验分布为 $\tilde P(X,Y)$ 和边缘分布 $P(X)$ 的经验边缘分布 $\tilde P(X)$ :

P ~ (X = x, Y = y) = \sum m i = 1 I { x i = x , y i = y } m P ~ (X = x) = \sum m i = 1 I { x i = x } m

$\tilde P(X=x,Y=y) =\frac{\sum_{i =1}^m {\bf I} \{x_i=x,y_i =y\}}{m} \\ \tilde P(X=x)=\frac{\sum_{i =1}^m {\bf I} \{x_i=x\}}{m}\\$
定义特征函数

f(x,y) $f(x,y)$ 表征输入和输出之间的某种的关系：

f (x, y) = {1, x, y 满 足 某 种 关 系 0 ， x, y 不 满 足 某 种 关 系

$f(x,y) = \left \{ \begin{array}{} 1 ,\;x,y满足某种关系\\ 0，\;x,y不满足某种关系\\ \end{array} \right.$
那么特征函数

f(x,y) $f(x,y)$ 关于经验分布

P~(X,Y) $\tilde P(X,Y)$ 的期望

EP~(f) $E_{\tilde P}(f)$ 为：

E P ~ (f) = \sum x, y P ~ (x, y) f (x, y)

$E_{\tilde P}(f)=\underset {x,y}\sum \tilde P(x,y)f(x,y)$
特征函数

f(x,y) $f(x,y)$ 关于模型

P(Y∣X) $P(Y\mid X)$ 边缘经验分布

P~(X) $\tilde P(X)$ 的期望

EP(f) $E_{P}(f)$ 为：

EP(f) $E_{ P}(f)$ 为：

E P (f) = \sum x, y P ~ (x) P (y ∣ x) f (x, y)

$E_{P}(f)=\underset {x,y}\sum \tilde P(x)P(y\mid x)f(x,y)$
如果模型能够获取训练中的信息，那么就可以假设上述两个期望是相等的，即：

E P (f) = E P ~ (f)

$E_{ P}(f)=E_{ \tilde P}(f)$
这就是模型学习的约束条件。如果存在多个这样的特征函数，那么就能得到多个约束条件。

定义(最大熵模型) 假设满足所有条件的模型集合为：

C = {P \in P ∣ E P (f i) = E P ~ (f i), i = 1, 2, \dots, n}

${\cal C}=\{P \in {\cal P} \mid E_{ P}(f_i)=E_{ \tilde P}(f_i) ,i =1,2,\cdots,n\}$
定义在条件概率

P(Y∣X) $P(Y\mid X)$ 的条件熵为：

H (P) = - \sum x, y P ~ (x) P (x, y) log P (y ∣ x)

$H(P) = -\underset {x,y}\sum \tilde P(x)P(x,y)\log P(y\mid x)$ 则模型集合

C $\cal C$ 中条件熵

H(P) $H(P)$ 最大的模型称为最大熵模型。

最大熵模型的学习策略

最大熵模型的求解问题可以转化为带约束的最优化问题，表述为：

max H (P) = - \sum x, y P ~ (x) P (x, y) log P (y ∣ x) \Rightarrow min - H (P) s . t . ⎧ ⎩ ⎨ ⎪ ⎪ E P (f i) = E P ~ (f i), i = 1, 2, \dots, n \sum y P (y ∣ x) = 1

$\max H(P) = -\underset {x,y}\sum \tilde P(x)P(x,y)\log P(y\mid x)\quad \Rightarrow \min -H(P)\\ s.t. \left \{ \begin{align} & E_{ P}(f_i)=E_{ \tilde P}(f_i) ,\; i =1,2,\cdots,n\\ & \underset {y}\sum P(y\mid x) =1\\ \end{align} \right.$
对于带约束的最优化问题，最先想到Lagrange乘子法，构建拉格朗日函数.

L (P, w) = - H (P) + w 0 (1 - \sum y P (y ∣ x)) + \sum i = 1 n w i (E P ~ (f i) - E P (f i)) = \sum x, y P ~ (x) P (x, y) log P (y ∣ x) + w 0 (1 - \sum y P (y ∣ x)) + \sum i = 1 n w i (\sum x, y P ~ (x, y) f i (x, y) - \sum x, y P ~ (x) P (y ∣ x) f i (x, y))

$\begin{align} L(P,w) &= -H(P) +w_0(1-\underset {y}\sum P(y\mid x))+\sum_{i=1}^n w_i(E_{ \tilde P}(f_i)-E_{ P}(f_i))\\ &=\underset {x,y}\sum \tilde P(x)P(x,y)\log P(y\mid x)+w_0(1-\underset {y}\sum P(y\mid x))+\sum_{i=1}^n w_i(\underset {x,y}\sum \tilde P(x,y)f_i(x,y)-\underset {x,y}\sum \tilde P(x)P(y\mid x)f_i(x,y))\\ \end{align}$
最优化的原始问题可以写为：

min P \in C max w L (P, w)

$\underset{P\in \cal C} \min \underset{w}\max L(P,w)$
其对偶问题为：

max w min P \in C L (P, w)

$\underset{w}\max\underset{P\in \cal C} \min L(P,w)$
因为优化问题的目标函数是凸的，所有原问题和对偶问题等价。对于对偶问题中的最小化问题，可以使拉格朗日函数

L $L$ 对

P $P$ 求导并使之为0，即：

\partial L ( P , w ) \partial P ( y ∣ x ) = \sum x, y P ~ (x) (log P (y ∣ x) + 1) - \sum y w 0 - \sum i = 1 n w i (\sum x, y P ~ (x) f i (x, y)) = \sum x, y P ~ (x) (log P (y ∣ x) + 1) - \sum x, y P ~ (x) w 0 - \sum x, y P ~ (x) (\sum i = 1 n w i f i (x, y)) = 0

$\begin{align} \frac{\partial L(P,w)}{\partial P(y\mid x)} &=\underset {x,y}\sum \tilde P(x)(\log P(y\mid x)+1)- \underset {y}\sum w_0-\sum_{i=1}^n w_i(\underset {x,y}\sum \tilde P(x)f_i(x,y))\\ &=\underset {x,y}\sum \tilde P(x)(\log P(y\mid x)+1)- \underset {x,y}\sum \tilde P(x)w_0-\underset {x,y}\sum \tilde P(x)(\sum_{i=1}^n w_if_i(x,y))\\ &=0 \end{align}$
当

P~(x)>0 $\tilde P(x) \gt 0$ 时，可得：

P (y ∣ x) = exp (\sum i = 1 n w i f i (x, y) + w 0 - 1) = exp ( \sum n i = 1 w i f i ( x , y ) ) exp ( 1 - w 0 ) = P ( y ∣ x ) 1 = P ( y ∣ x ) \sum y P ( y ∣ x ) = exp ( \sum n i = 1 w i f i ( x , y ) ) \sum y exp ( \sum n i = 1 w i f i ( x , y ) ) = exp ( \sum n i = 1 w i f i ( x , y ) ) Z w ( x )

$\begin{align} P(y\mid x) &= \exp \left (\sum_{i=1}^n w_if_i(x,y)+w_0-1 \right)\\ &=\frac{\exp \left (\sum_{i=1}^nw_if_i(x,y) \right)}{\exp(1-w_0)}\\ &=\frac {P(y\mid x)}{ 1} \\ &=\frac{P(y\mid x) } {\underset {y} \sum P(y\mid x)}\\ &=\frac{\exp \left (\sum_{i=1}^nw_if_i(x,y) \right)}{\underset {y} \sum\exp \left (\sum_{i=1}^nw_if_i(x,y) \right)}\\ &=\frac{\exp \left (\sum_{i=1}^nw_if_i(x,y) \right)}{Z_w(x)}\\ \end{align}$
那么将上式带入拉格朗日函数，可以将问题转化为：

max w L (w)

$\underset {w}\max \quad L(w)$
上述中的

L(w)称为对偶函数， $L(w)称为对偶函数，$

对偶问题极大化问题等价于最大熵模型的极大似然估计 $\color{red}{对偶问题极大化问题等价于最大熵模型的极大似然估计}$ 【可推导】

最大熵模型的最优化算法

改进的迭代尺度法

拟牛顿法

References：
[1]李航：《统计学习方法》

xholes

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最大熵模型

最大熵模型最大熵模型由最大熵原理推导而来。最大熵原理是概率模型的学习的一个准则，最大熵原理认为，学习概率模型时，在所有概率模型中，熵最大的模型时最好的模型，通常利用约束条件来确定概率模型的集合。所以，最大熵原理也可表述为在满足约束条件的模型集合中选取熵最大的模型。
复制链接

扫一扫