细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（六）

最新推荐文章于 2024-07-07 21:36:30 发布

芝麻挞

最新推荐文章于 2024-07-07 21:36:30 发布

阅读量216

点赞数

文章标签：机器学习数据挖掘概率论

本文链接：https://blog.csdn.net/weixin_43928665/article/details/106817534

版权

第六节：逻辑斯蒂回归& 最大熵模型的血缘关系

最大熵原理

学习概率模型时，在所有可能的，满足约束条件的模型中，熵最大的模型最好。

概率分布 P 的熵 $=H(P)=-\displaystyle \sum_xP(x)logP(x)$

熵满足这个不等式： $0\leq H(P)\leq log|X|$ . $∣ X ∣$ 代表随机变量 X 所有可能的取值的个数。当且仅当 X 是均匀分布的时候，右边的等号成立，此时熵最大。直观地讲，最大熵原理认为要选择的概率模型首先必须要满足已有的事实，即约束条件。在没有更多信息的情况下，那些不确定的部分都是 “等可能” 的。“等可能” 不容易操作，而熵则是一个可优化的数值。于是最大熵原理通过熵的最大化来表示 “等可能性”。

最大熵模型的定义

训练数据集 $T=\{(\vec{x_1}, y_1),\ (\vec{x_2},y_2),\ ...,\ \}$

用特征函数 $f(\vec x,\ y)$ 描述 $\vec x$ 和 $y$ 之间的某一事实：

$f(\vec x,\ y)=\begin{cases} 1\quad if\ \vec x\ \&\ y\ 满足某一事实 \\ 0\quad otherwise\end{cases}$

定义在训练数据集上的经验分布：

$\begin{cases} \hat{P}(\vec X=\vec x,\ Y=y)=\frac{Count(\vec X=\vec x,\ Y=y)}{N}\ \leftarrow\ \color{#8AD597}经验联合分布\\ \hat{P}(\vec X=\vec x)=\frac{Count(\vec X=\vec x)}{N}\ \leftarrow\ \color{#8AD597}经验边缘分布\end{cases}$

假设分类模型是对条件概率分布 $P(Y\ |\ \vec X)$ 建模。

定义 $\begin{cases} f(\vec x,\ y) 在经验联合分布上的期望：E_{\hat P}(f)=\displaystyle\sum_{\vec x,\ y}\hat P(\vec x,\ y)f(\vec x,\ y) \\ \\ f(\vec x,\ y) 关于模型P(Y\ |\ \vec X)与经验边缘分布\hat{P}(\vec X)的期望：E_{P}(f)=\displaystyle\sum_{\vec x,\ y}P(y\ |\ \vec x)\hat P(\vec x)f(\vec x,\ y) \end{cases}$

约束条件： $E_{\hat P}(f)=E_{P}(f)$ （这两个期望相等表明模型可以从数据集获得有关真实分布充足的信息）

如果有 n 个事实，那么将构造 n 个特征函数，就要有 n 个约束条件。

假设满足所有约束条件的集合为： $C\equiv\{P\in\ \mathcal{P}\ |\ E_{\hat P}(f_i)=E_{P}(f_i),\ \ i=1,2,...,n\}$

定义在条件概率分布上的条件熵为： $H(P)=-\displaystyle \sum_{\vec x,\ y}\hat{P}(\vec x)P(y\ |\ \vec x)logP(y\ |\ \vec x)$

$\Rightarrow$ 最大熵模型就是模型集合 $C$ 中 $H (P)$ 最大的模型

最大熵模型的学习

最大熵模型的学习等价于约束最优化问题： $\underset{P\in C}{max}H(P)\ \Leftrightarrow\ \underset{P\in C}{min}H(P)$

约束： $E_{\hat P}(f_i)=E_{P}(f_i),\ \ i=1,2,...,n$ ， $\displaystyle\sum_yP(y\ |\ \vec x)=1$

将约束最优化问题转化为无约束最优化的对偶问题

引入拉格朗日乘子 $w_0,w_1,...,w_n$ ，定义拉格朗日函数 $\mathcal{L}(P,\ \vec w)$ (听起来神秘兮兮的~ 别走，先往下看着)

$\mathcal{L}(P,\ \vec w)\equiv -H(P)+w_0[1-\displaystyle\sum_{y}P(y\ |\ \vec x)]+\sum^n_{i=1}w_i[E_{\hat P}(f_i)-E_{P}(f_i)]$

$\quad\quad\quad\quad= \sum_{\vec x,\ y}\hat{P}(\vec x)P(y\ |\ \vec x)logP(y\ |\ \vec x)+w_0[1-\sum_{y}P(y\ |\ \vec x)]+\sum^n_{i=1}w_i\Big[\sum_{\vec x,\ y}\hat P(\vec x,\ y)f_i(\vec x,\ y)-\sum_{\vec x,\ y}P(y\ |\ \vec x)\hat P(\vec x)f_i(\vec x,\ y)\Big]$

原始最优化问题： $\underset{P\in C}{min}\ \underset{\vec w}{max}\ \mathcal{L}(P,\ \vec w)$

最低0.47元/天解锁文章

芝麻挞

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
细讲逻辑斯蒂回归与朴素贝叶斯、最大熵原理的爱恨交织（六）

第六节 —— 理顺逻辑斯蒂回归和最大熵模型千丝万缕的联系最大熵原理学习概率模型时，在所有可能的，满足约束条件的模型中，熵最大的模型最好。概率分布 P 的熵 =H(P)=−∑xP(x)logP(x)=H(P)=-\displaystyle \sum_xP(x)logP(x)=H(P)=−x∑P(x)logP(x)熵满足这个不等式：0≤H(P)≤log∣X∣0\leq H(P)\leq log|X|0≤H(P)≤log∣X∣.  ∣X∣|X|∣X∣ 代表随机变量 X 所有可能的取值的个
复制链接

扫一扫