信息熵的最值问题

最新推荐文章于 2024-03-04 11:45:22 发布

袁钰琦

最新推荐文章于 2024-03-04 11:45:22 发布

阅读量1.6k

点赞数 2

分类专栏：机器学习西瓜书公式推导文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_43915107/article/details/120356800

版权

机器学习同时被 3 个专栏收录

5 篇文章 0 订阅

订阅专栏

西瓜书

5 篇文章 0 订阅

订阅专栏

公式推导

1 篇文章 0 订阅

订阅专栏

证明

$E n t (D)$ 的最小值为0，最大值为 $log_2|\mathcal{Y}|$

$\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k}$

其中， $0\le p_k\le1$ ， $-\sum_{k=1}^{|\mathcal{y}|}p_k=1$

最大值

若令 $|\mathcal{Y}|=n, p_{k}=x_{k}$ ，那么信息熵Ent(D)就可以看作一个n元实值函数，也即

$\operatorname{Ent}(D)=f\left(x_{1}, \ldots, x_{n}\right)=-\sum_{k=1}^{n} x_{k} \log _{2} x_{k}$

先考虑 $-\sum_{k=1}^{|\mathcal{y}|}x_k=1$ ，对Ent(D)求最大值等价于如下最大化问题：

$\begin{aligned}&\min \sum_{k=1}^{n} x_{k} \log _{2} x_{k} \\&\text { s.t. } \sum_{k=1}^{n} x_{k}=1\end{aligned}$

显然，在 $0\le x_k\le1$ 时，此问题为凸优化问题，而对于凸优化问题来说，满足KKT条件的点即为最优解。由于此最小化问题仅含等式约束，那么能令其拉格朗日函数的一阶偏导数等于0的点即为满足KKT条件的点。

根据拉格朗日乘子法可知，该优化问题的拉格朗日函数为

$L\left(x_{1}, \ldots, x_{n}, \lambda\right)=\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)$

对拉格朗日函数分别关于 $x_1,x_2,……,x_n,\lambda$ 求一阶偏导数，并令偏导数等于0可得

$\frac{\partial L\left(x_{1}, \ldots, x_{n}, \lambda\right)}{\partial x_{1}}=\frac{\partial}{\partial x_{1}}\left[\sum_{k=1}^{n} x_{k} \log _{2} x_{k}+\lambda\left(\sum_{k=1}^{n} x_{k}-1\right)\right]=0$

$\Rightarrow \lambda=-\log _{2} x_{1}-\frac{1}{\ln 2}$

同理可得：

$\lambda=-\log _{2} x_{1}-\frac{1}{\ln 2}=-\log _{2} x_{2}-\frac{1}{\ln 2}=\ldots=-\log _{2} x_{n}-\frac{1}{\ln 2}$

又因为 $-\sum_{k=1}^{|\mathcal{y}|}x_k=1$ ，所以解得 $x_{1}=x_{2}=\ldots=x_{n}=\frac{1}{n}$

代入得

$f\left(\frac{1}{n}, \ldots, \frac{1}{n}\right)=-\sum_{k=1}^{n} \frac{1}{n} \log _{2} \frac{1}{n}=-n \cdot \frac{1}{n} \log _{2} \frac{1}{n}=\log _{2} n$

因此可得最大值为 $log _{2} n$ ，即最大值为 $log_2|\mathcal{Y}|$

最小值

$g\left(x_{k}\right)=-x_{k} \log _{2} x_{k}$

对 $g(x_1)$ 求二阶导数

$g^{\prime \prime}\left(x_{1}\right)=\frac{d\left(g^{\prime}\left(x_{1}\right)\right)}{d x_{1}}=\frac{d\left(-\log _{2} x_{1}-\frac{1}{\ln 2}\right)}{d x_{1}}=-\frac{1}{x_{1} \ln 2}$
$g^{''} (x)$ 在其定义域内恒小于0，当x趋近于0时， $g^{'} (x) > 0$ ，因此 $g (x)$ 是一个在其定义域内开口向下的凹函数，那么其最小值必然在边界0和1处取得。