最大熵模型

最新推荐文章于 2021-03-23 21:02:56 发布

复方尿维氨滴眼液

最新推荐文章于 2021-03-23 21:02:56 发布

阅读量709

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/zjsmdchen/article/details/51829645

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

信息熵介绍

例子：称硬币的问题，说有5个硬币，其中有一个是假的，这个假硬币的重量很轻，所以打算用一个天平称称，问需要最少称几次就能够保证把这个假硬币给找出来？
假设 $x\in X=\{1,2,3,4,5\}$ 是那个假硬币的序号， $y\in Y=\{1,2,3\}$ 是第 $i$ 次称重时的结果。通过求解 $|X|=|Y|^n$ 中的n，可以获知需要n次才能找到假硬币。求解这个等式的过程如下：

n = log | X | | Y | = log | X | log | Y | (1)

$n=\log_{|Y|}^{|X|}={{\log|X|}\over{\log|Y|}}\tag{1}$
可以将(1)中的

log|X| $\log|X|$ 看成结果

X $X$ 的不确定程度，将

log|Y| $\log|Y|$ 看成每一次称重结果

Y $Y$ 的描述能力。
接下来，变形上述例子：已知第一个硬币是假硬币的概率是三分之一；第二个硬币是假硬币的概率也是三分之一，其他硬币是假硬币的概率都是九分之一，问需要最少称几次就能够保证把这个假硬币给找出来？
可想而知，

n' = \sum i = 0 4 P (x = X i) x = X i 时 的 不 确 定 程 度 Y 的 描 述 能 力 (2)

$n'=\sum_{i=0}^4P(x=X_i){x=X_i时的不确定程度\over Y的描述能力}\tag{2}$
在这里引入不确定性函数，根据香农的信息论，不确定函数需要满足以下两个条件：

不确定函数f是概率P的单调递减函数，即发生的概率越大，那么不确定性越小，反之，越大。
两个独立符号所产生的不确定性应等于各自不确定性之和，即 $f（P_1，P_2）=f（P_1）+f（P_2）$ ，这称为可加性。

同时满足这两个条件的函数为 $f(P)=log({1\over P})=-log(P)$ 。
将不确定性函数代入(2)，得到：

n' = \sum i = 0 4 P (x = X i) - log ( P ( x = X i ) ) log | Y |

$n'=\sum_{i=0}^4P(x=X_i){-\log(P(x=X_i))\over \log{|Y|}}$

= - \sum 4 i = 0 P ( x = X i ) log ( P ( x = X i ) ) log | Y | (3)

$={-\sum_{i=0}^4P(x=X_i)\log(P(x=X_i))\over \log{|Y|}}\tag{3}$
可以将(3)式中的分子看做整个问题的总不确定性，也就是信息熵。这样就可以理解信息熵为变量不确定性的期望。
假设离散随机变量

X $X$ 的概率分布式

P(X) $P(X)$ ，则其熵是

H(P) $H(P)$

- H (P) = \sum x P (x) log P (x)

$-H(P)=\sum_{x}P(x)\log P(x)$
熵满足下列不等式，

0 \leq - H (P) \leq log | X |

$0\leq -H(P)\leq \log|X|$
式中，当

X $X$ 服从均匀分布时，右边的等号才成立，也就是说这时候熵最大。由此可以看出，在（1）式中用

log|X| $\log|X|$ 来描述均匀分布的

X $X$ 的不确定程度是有理可据的。

特征函数

用特征函数 $f(x,y)$ 描述输入 $x$ 和输出 $y$ 之间的某一个事实。
其定义是，

f (x, y) = {1, x 和 y 满 足 一 定 条 件 0, 其 他

$f(x,y)=\begin{cases} 1,x和y满足一定条件\\ 0,其他 \end{cases}$
我们可以将任何样本的统计表示成一个适当的二值指示函数的期望值，我们把这个函数叫做特征函数（feature function）或简称特征（feature）。假如有n个特征函数，那么就有n个约束条件。

条件熵

H (Y | X) = \sum x \in χ p (x) H (Y | X = x) = - \sum x \in X p (x) \sum y \in Y p (y | x) log p (y | x) = - \sum x \in X \sum y \in Y p (x, y) log (p (y | x)) = - \sum x \in X y \in Y p (x, y) log (p (y | x))

$H(Y|X)=\sum_{x\in\chi}p(x)H(Y|X=x)\\ =-\sum_{x\in{\cal X}}p(x)\sum_{y\in{\cal Y}}p(y|x)\log p(y|x)\\ =-\sum_{x\in{\cal X}}\sum_{y\in{\cal Y}}p(x,y)\log (p(y|x))\\ =-\sum_{x\in{\cal X}\ y\in{\cal Y}}p(x,y)\log (p(y|x))$

最大熵模型

假设满足所有约束条件的模型集合为

C \equiv {P \in P | E P ˘ (f i) = E P (f i), i = 1, 2, \dots, n}

${\cal C}\equiv \{P\in {\cal P}|E_{\breve P}(f_i)=E_{P}(f_i),i=1,2,\cdots,n\}$
定义在条件概率分布上的

P(Y|X) $P(Y|X)$ 上的条件熵为

H (P) = - \sum x, y P ˘ (x) P (y | x) log P (y | x)

$H(P)=-\sum_{x,y}\breve P(x)P(y|x)\log P(y|x)$
则模型集合

C $\cal C$ 中条件熵

H(P) $H(P)$ 最大的模型成为最大熵模型。

参考文献

MaxEnt: 最大熵模型(Maximum Entropy Models)(一） http://www.zhizhihu.com/html/y2011/3489.html

复方尿维氨滴眼液

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最大熵模型

信息熵介绍例子：称硬币的问题，说有5个硬币，其中有一个是假的，这个假硬币的重量很轻，所以打算用一个天平称称，问需要最少称几次就能够保证把这个假硬币给找出来？假设x∈X={1,2,3,4,5}x\in X=\{1,2,3,4,5\}是那个假硬币的序号，y∈Y={1,2,3}y\in Y=\{1,2,3\}是第ii次称重时的结果。通过求解|X|=|Y|n|X|=|Y|^n中的n，可以获知需要n
复制链接

扫一扫