【ML+DL 基础知识】信息瓶颈

ML+DL 基础知识
信息瓶颈
参考视频和文章连接,谢谢~:
信息瓶颈理论_哔哩哔哩_bilibili
机器学习_KL散度详解(全网最详细)_kl散度计算公式-CSDN博客

一、定义

从源数据中提取出与任务目标相关的信息的方法

一般通过 优化权衡压缩项 和 预测项的 IB Lagrangian 来实现

在这里插入图片描述

1.1 率失真理论

1.1.1 优化目标
  • X X X 压缩为 X ~ \widetilde{X} X ,并且两者之间的 互信息 最小
  • 约束条件:
    • X X X X ~ \widetilde{X} X 之间的期望失真概率:
    • 采用两者之间距离来表示,让距离 $ \leq D$
    • 距离的表示有很多种,可以自己换

1.2 信息瓶颈理论

1.2.1 目标
  • 多了一个标签 Y Y Y
  • 保留 X X X 关于 Y Y Y 的相关信息的前提下
    • 降低 X X X 的码率
1.2.2 优化目标
  • 最小化 X X X X ~ \widetilde{X} X 的互信息
  • 最大化 X ~ \widetilde{X} X Y Y Y 的互信息
  • 两者做差,最小化 L L L
1.2.3 距离
  • 使用 KL 散度

    • 衡量 两个分布之间距离
  • KL散度,可以以称作相对熵(relative entropy)或信息散度(information divergence)

  • 理论意义:

    • 度量两个概率分布之间的差异程度
      • KL散度越大,两者的差异程度越大
      • KL散度小,两者的差异程度小
      • 如果两者相同的话,则该KL散度应该为0
        在这里插入图片描述
        在这里插入图片描述
  • 在信息论中,熵代表着信息量

  • H ( P ) H(P) H(P)代表着基于 P P P分布自身的编码长度,最优的编码长度(最小字节数)

  • H ( P , Q ) H(P,Q) H(P,Q)代表着用 Q Q Q的分布去近似 P P P分布的信息,自然需要更多的编码长度

    • 两个分布差异越大,需要的编码长度越大
    • 所以,两个值相减是大于等于0的一个值,代表冗余的编码长度,即两个分布差异的程度
    • KL散度在信息论中还可以称为相对熵(relative entropy)
  • 对深度学习中的生成模型来说

    • 希望最小化真实数据分布与生成数据分布之间的KL散度
    • 从而使得 生成数据 尽可能接近 真实数据 的分布
  • 实际场景中,几乎不可能知道真实数据分布 P d a t a ( x ) P_{data}(x) Pdata(x)

    • 使用训练数据形成的生成分布在逼近 P d a t a ( x ) P_{data}(x) Pdata(x)

二、提出

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

三、演示

在这里插入图片描述

  • 15
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值