信息熵为凹函数-推导

凹函数和凸函数,是凹凸是相对于x轴来说的,对于熵来说,它是凹函数。因为它是-log函数,函数曲线相对于x轴来说是凸的。

Jensen不等式推导

以下是证明熵是凹函数。

引理:

①Jensen不等式,条件:对于实数域上的凸函数f,如果x是一个随机变量,则不等式可以表述为: f ( E [ x ] ) ≤ E [ f ( x ) ] f(E[x])\leq E[f(x)] f(E[x])E[f(x)],意为自变量均值的函数值(曲线上的值)≤自变量函数值的均值(直线上的值)。

②利用Jensen不等式判定函数为凹或凸。

凸:如果对于所有的x,y和所有t ∈ [ 0 , 1 ] \in[0,1] [0,1],满足: f ( t ⋅ x   +   ( 1 − t ) ⋅ x ) ≤ t ⋅ f ( x )   +   ( 1 − t ) ⋅ f ( x ) f(t \cdot x\ +\ (1-t)\cdot x)\leq t\cdot f(x) \ +\ (1-t)\cdot f(x) f(tx + (1t)x)tf(x) + (1t)f(x),则为凸函数——直线上的点y值要比曲线上的点y值大。

凹:则相反。

因为-log函数是凸函数。所以, − log ⁡ ( t ⋅ x + ( 1 − t ) ⋅ x ) ≥ t ⋅ ( − log ⁡ ( x ) ) + ( 1 − t ) ⋅ ( − log ⁡ ( x ) ) -\log(t\cdot x+ (1-t)\cdot x)\geq t\cdot (-\log(x)) + (1-t)\cdot (-\log(x)) log(tx+(1t)x)t(log(x))+(1t)(log(x))

H ( λ p + ( 1 − λ ) q ) ) = ∑ i = 1 n − ( λ p i + ( 1 − λ ) q i ) ⋅ log ⁡ ( λ p i + ( 1 − λ ) q i ) = ∑ i = 1 n ( λ p i + ( 1 − λ ) q i ) ⋅ − log ⁡ ( λ p i + ( 1 − λ ) q i ) ≥ ∑ i = 1 n ( λ p i + ( 1 − λ ) q i ) ( λ ⋅ − log ⁡ p i + ( 1 − λ ) ( − log ⁡ q i ) ) = ∑ i = 1 n ( λ p i ⋅ − log ⁡ p i + λ p i ⋅ ( 1 − λ ) ( − log ⁡ q i ) ) + ( 1 − λ ) q i ⋅ − log ⁡ p i + ( 1 − λ ) q i ⋅ ( 1 − λ ) ( − log ⁡ q i ) ) = ∑ i = 1 n ( λ p i ⋅ − log ⁡ p i + ( 1 − λ ) q i ⋅ ( 1 − λ ) ( − log ⁡ q i ) ) + ∑ i = 1 n ( λ p i ⋅ ( 1 − λ ) ( − log ⁡ q i ) ) + ( 1 − λ ) q i ⋅ − log ⁡ p i ) ≥ ∑ i = 1 n ( λ p i ⋅ − log ⁡ p i + ( 1 − λ ) q i ⋅ ( 1 − λ ) ( − log ⁡ q i ) ) = λ 2 H ( p ) + ( 1 − λ ) 2 H ( q ) = λ H ( p ) + ( 1 − λ ) H ( q ) H(\lambda p + (1- \lambda) q))=\sum_{i=1}^n-(\lambda p_i+(1-\lambda ) q_i)\cdot \log(\lambda p_i+(1-\lambda )q_i)\\ =\sum_{i=1}^n(\lambda p_i+(1-\lambda ) q_i)\cdot -\log(\lambda p_i+(1-\lambda )q_i)\\ \geq \sum_{i=1}^n (\lambda p_i+(1-\lambda)q_i) (\lambda \cdot -\log p_i+(1-\lambda) (-\log q_i))\\=\sum_{i=1}^n(\lambda p_i\cdot -\log p_i + \lambda p_i \cdot (1-\lambda) (-\log q_i)) + (1-\lambda)q_i \cdot -\log p_i+ (1-\lambda)q_i \cdot (1-\lambda) (-\log q_i))\\=\sum_{i=1}^n(\lambda p_i\cdot -\log p_i + (1-\lambda)q_i \cdot (1-\lambda) (-\log q_i))+\sum_{i=1}^n(\lambda p_i \cdot (1-\lambda) (-\log q_i)) + (1-\lambda)q_i \cdot -\log p_i)\\\geq\sum_{i=1}^n(\lambda p_i\cdot -\log p_i + (1-\lambda)q_i \cdot (1-\lambda) (-\log q_i))\\ =\lambda^2 H(p)+(1-\lambda)^2H(q)\\=\lambda H(p)+(1-\lambda)H(q) H(λp+(1λ)q))=i=1n(λpi+(1λ)qi)log(λpi+(1λ)qi)=i=1n(λpi+(1λ)qi)log(λpi+(1λ)qi)i=1n(λpi+(1λ)qi)(λlogpi+(1λ)(logqi))=i=1n(λpilogpi+λpi(1λ)(logqi))+(1λ)qilogpi+(1λ)qi(1λ)(logqi))=i=1n(λpilogpi+(1λ)qi(1λ)(logqi))+i=1n(λpi(1λ)(logqi))+(1λ)qilogpi)i=1n(λpilogpi+(1λ)qi(1λ)(logqi))=λ2H(p)+(1λ)2H(q)=λH(p)+(1λ)H(q)
因为 q i q_i qi p i p_i pi都是0-1的概率,所以一长串要大于单独的剩下两项。同时,尽管最后有 λ 2 \lambda^2 λ2 ( 1 − λ ) 2 (1-\lambda)^2 (1λ)2,因为关注的是线性组合,这都是常数,可以改写成另一种常数,(这里我不确定是否合理,希望小伙伴多多指正)所以这是最后的化简结果。

最后得到 H ( λ p + ( 1 − λ ) q ) ≥ λ H ( p ) + ( 1 − λ ) H ( q ) H(\lambda p+(1-\lambda)q)\geq\lambda H(p)+(1-\lambda)H(q) H(λp+(1λ)q)λH(p)+(1λ)H(q),即熵是凹函数。

这是利用了Jensen不等式来辅助证明的。

下面知乎博客的证明式子更直接简单易于理解。直接看图。

image-20240508114904820

GPT推导

GPT给的回答是这样,但现在理解不了。

好的,让我们重新审视熵是凹函数这一性质,并结合之前的讨论。

我们知道熵$ ( H(X) ) $的定义为:

[ H ( X ) = − ∑ x P ( x ) log ⁡ P ( x ) ] [ H(X) = - \sum_{x} P(x) \log P(x) ] [H(X)=xP(x)logP(x)]

我们需要证明熵的二阶导数是负的,即$ ( \frac{{d2H}}{{dx2}} < 0 )$。

首先,我们计算一阶导数:

[ d H d x = − ∑ x ( d P ( x ) d x log ⁡ P ( x ) + P ( x ) d ( log ⁡ P ( x ) ) d x ) ] [ \frac{{dH}}{{dx}} = - \sum_{x} \left( \frac{{dP(x)}}{{dx}} \log P(x) + P(x) \frac{{d(\log P(x))}}{{dx}} \right) ] [dxdH=x(dxdP(x)logP(x)+P(x)dxd(logP(x)))]

接着,计算二阶导数:

[ d 2 H d x 2 = − ∑ x ( d 2 P ( x ) d x 2 log ⁡ P ( x ) + 2 d P ( x ) d x d ( log ⁡ P ( x ) ) d x + P ( x ) d 2 ( log ⁡ P ( x ) ) d x 2 ) ] [ \frac{{d^2H}}{{dx^2}} = - \sum_{x} \left( \frac{{d^2P(x)}}{{dx^2}} \log P(x) + 2 \frac{{dP(x)}}{{dx}} \frac{{d(\log P(x))}}{{dx}} + P(x) \frac{{d^2(\log P(x))}}{{dx^2}} \right) ] [dx2d2H=x(dx2d2P(x)logP(x)+2dxdP(x)dxd(logP(x))+P(x)dx2d2(logP(x)))]

现在,让我们考虑概率分布$ ( P(x) ) $的条件:

  1. 所有的概率值都必须是非负的: ( P ( x ) ≥ 0 ) ( P(x) \geq 0 ) (P(x)0),对于所有的$ ( x )$。
  2. 所有概率值的总和必须为1: ( ∑ x P ( x ) = 1 ) ( \sum_{x} P(x) = 1 ) (xP(x)=1)

根据上述讨论,我们知道 ( P ( x ) ) ( P(x) ) (P(x))是非负的,因此 ( d P ( x ) d x ) ( \frac{{dP(x)}}{{dx}} ) (dxdP(x))也是非负的。对数函数的二阶导数是负的。因此,我们可以得出结论:

  1. ( d 2 P ( x ) d x 2 ) ( \frac{{d^2P(x)}}{{dx^2}} ) (dx2d2P(x))是非负的。
  2. ( d 2 ( log ⁡ P ( x ) ) d x 2 ) ( \frac{{d^2(\log P(x))}}{{dx^2}} ) (dx2d2(logP(x)))是负的。

由于所有的概率值 ( P ( x ) ) (P(x)) (P(x)) 的总和为1,因此其一阶导数 ( f r a c d P ( x ) d x ) ( frac{{dP(x)}}{{dx}} ) (fracdP(x)dx)的积分为0。这意味着对数函数的一阶导数 ( d ( log ⁡ P ( x ) ) d x ) ( \frac{{d(\log P(x))}}{{dx}} ) (dxd(logP(x)))的积分也为0。

综合以上结果,我们可以得出结论:熵 ( H ( X ) ) ( H(X) ) (H(X))的二阶导数是负的,即 ( H ( X ) ) ( H(X) ) (H(X))是凹函数。

这个证明表明,无论概率分布 ( P ( x ) ) ( P(x) ) (P(x))是如何变化的,其熵的凹性质始终成立,这是信息论中一个重要的性质。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

刘义申汉

随缘惜缘不攀缘。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值