【ML+DL 基础知识】信息瓶颈

最新推荐文章于 2024-09-02 14:58:59 发布

努力努力不秃头！

最新推荐文章于 2024-09-02 14:58:59 发布

阅读量744

点赞数 15

分类专栏： ML+DL相关知识文章标签：深度学习人工智能神经网络 python 信息与通信机器学习算法

本文链接：https://blog.csdn.net/weixin_49946504/article/details/141430043

版权

1 篇文章 0 订阅

订阅专栏

ML+DL 基础知识
信息瓶颈
参考视频和文章连接，谢谢~：
信息瓶颈理论_哔哩哔哩_bilibili
机器学习_KL散度详解（全网最详细）_kl散度计算公式-CSDN博客

从源数据中提取出与任务目标相关的信息的方法

一般通过优化权衡压缩项和预测项的 IB Lagrangian 来实现

在这里插入图片描述

让 $X$ 压缩为 $\widetilde{X}$ ，并且两者之间的 互信息 最小
约束条件：
- $X$ 和 $\widetilde{X}$ 之间的期望失真概率：
- 采用两者之间距离来表示，让距离 $ \leq D$
- 距离的表示有很多种，可以自己换

使用 KL 散度
- 衡量两个分布之间距离
KL散度，可以以称作相对熵（relative entropy）或信息散度（information divergence）
理论意义：
- 度量两个概率分布之间的差异程度
  - KL散度越大，两者的差异程度越大
  - KL散度小，两者的差异程度小
  - 如果两者相同的话，则该KL散度应该为0
在信息论中，熵代表着信息量
$H (P)$ 代表着基于 $P$ 分布自身的编码长度，最优的编码长度（最小字节数）
$H (P, Q)$ 代表着用 $Q$ 的分布去近似 $P$ 分布的信息，自然需要更多的编码长度
- 两个分布差异越大，需要的编码长度越大
- 所以，两个值相减是大于等于0的一个值，代表冗余的编码长度，即两个分布差异的程度
- KL散度在信息论中还可以称为相对熵（relative entropy）
对深度学习中的生成模型来说
- 希望最小化真实数据分布与生成数据分布之间的KL散度
- 从而使得生成数据尽可能接近真实数据的分布
实际场景中，几乎不可能知道真实数据分布 $P_{data}(x)$ 的
- 使用训练数据形成的生成分布在逼近 $P_{data}(x)$