ML16信息论

转载自GitHub:http://t.cn/E73win9

《深度学习》 3.13 信息论

  • 信息论的基本想法是:一件不太可能的事发生,要比一件非常可能的事发生,提供更多的信息。
  • 该想法可描述为以下性质:
    1. 非常可能发生的事件信息量要比较少,并且极端情况下,一定能够发生的事件应该没有信息量。
    2. 比较不可能发生的事件具有更大的信息量。
    3. 独立事件应具有增量的信息。例如,投掷的硬币两次正面朝上传递的信息量,应该是投掷一次硬币正面朝上的信息量的两倍。

信息熵 与 自信息

  • 自信息(self-information)是一种量化以上性质的函数,定义一个事件x的自信息为:

    I ( x ) = − log ⁡ P ( x ) I(x)=-\log P(x) I(x)=logP(x)

    当该对数的底数为自然对数 e 时,单位为奈特(nats);当以 2 为底数时,单位为比特(bit)或香农(shannons)

  • 自信息只处理单个的输出。

  • 信息熵(Information-entropy)用于对整个概率分布中的不确定性总量进行量化:

    H ( X ) = E X ∼ P [ I ( x ) ] = − ∑ x ∈ X P ( x ) log ⁡ P ( x ) H(\mathrm{X})=\mathbb{E}_{\mathrm{X} \sim P}[I(x)]=-\sum_{x \in \mathrm{X}}P(x)\log P(x) H(X)=EXP[I(x)]=xXP(x)logP(x)

    信息论中,记 0log0 = 0

交叉熵 与 相对熵/KL散度

  • 定义 P 对 QKL 散度(Kullback-Leibler divergence):

    D P ( Q ) = E X ∼ P [ log ⁡ P ( x ) Q ( x ) ] = ∑ x ∈ X P ( x ) [ log ⁡ P ( x ) − log ⁡ Q ( x ) ] D_P(Q)=\mathbb{E}_{\mathrm{X}\sim P}\left [ \log \frac{P(x)}{Q(x)} \right ]=\sum_{x \in \mathrm{X}}P(x)\left [ \log P(x)-\log Q(x) \right ] DP(Q)=EXP[logQ(x)P(x)]=xXP(x)[logP(x)logQ(x)]

KL 散度在信息论中度量的是哪个直观量?

  • 在离散型变量的情况下, KL 散度衡量的是:当我们使用一种被设计成能够使得概率分布 Q 产生的消息的长度最小的编码,发送包含由概率分布 P 产生的符号的消息时,所需要的额外信息量。

KL散度的性质

  • 非负;KL 散度为 0 当且仅当P 和 Q 在离散型变量的情况下是相同的分布,或者在连续型变量的情况下是“几乎处处”相同的
  • 不对称;D_p(q) != D_q§

交叉熵(cross-entropy):

H P ( Q ) = − E X ∼ P log ⁡ Q ( x ) = − ∑ x ∈ X P ( x ) log ⁡ Q ( x ) H_P(Q)=-\mathbb{E}_{\mathrm{X}\sim P}\log Q(x)=-\sum_{x \in \mathrm{X}}P(x)\log Q(x) HP(Q)=EXPlogQ(x)=xXP(x)logQ(x)

信息量,信息熵,交叉熵,KL散度和互信息(信息增益) - CSDN博客

交叉熵 与 KL 散度的关系

  • 针对 Q 最小化交叉熵等价于最小化 P 对 Q 的 KL 散度,因为 Q 并不参与被省略的那一项。

    H P ( Q ) = H ( P ) + D P ( Q ) H_P(Q)=H(P)+D_P(Q) HP(Q)=H(P)+DP(Q)

  • 最大似然估计中,最小化 KL 散度其实就是在最小化分布之间的交叉熵。

    《深度学习》 ch5.5 - 最大似然估计

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值