Information Bottleneck 信息瓶颈

whatever?picky?

已于 2022-03-10 10:49:12 修改

阅读量7.1k

点赞数 5

文章标签：机器学习算法人工智能

于 2022-02-19 16:23:57 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44522007/article/details/123019675

版权

信息瓶颈理论在机器学习中提出，目标是用最少的信息来提取关键特征，从而提高模型的泛化能力。通过变分信息瓶颈（VIB）在深度学习模型中实现，它在编码器和解码器中优化互信息，减少冗余信息，增强相关性。这一理论在实践中表现为调整损失函数，通过最大化Y和Z的互信息并最小化X和Z的互信息，达到理想的特征提取效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

信息瓶颈（Information Bottleneck，IB），是一个比较朴素的思想：当面对一个任务，应用试图用最少的信息来完成。这和 “最小熵系列”类似，因为信息对应着学习成本，我们用最少的信息来完成一个任务，就意味着用最低的成本来完成这个任务，这意味着得到泛化性能更好的模型。

把所有那些对工作有帮忙的判断性信息全提取进去，同时又过滤掉冗余性的信息。

信息瓶颈的原理

为什么更低的成本/更少的信息就能得到更好的泛化能力？

比如在公司中，如果要为每个客户都制定一个解决方案，派专人去跟进，那么成本是很大的；如果能找到一套普适的方案来，以后只需要在这个方案基础上进行微调，那么成本就会低很多。

“普适的方案” 是因为我们找到了客户需求的共性和规律，所以很显然，一个成本最低的方案意味着我们能找到一些普适的规律和特性，这就意味这泛化性能。

在深度学习中，我么能利用 ”变分信息瓶颈“（VIB）Variational Information Bottleneck来体现这一点。

原理

查看reference

结果观察与实现

相比原始的监督学习任务，变分信息瓶颈的改动是：

1. 引入了均值和方差的概念，加入了重参数操作

2. 加入了KL散度为额外的损失函数

跟VAE如出一辙

Reference

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。