互信息及其在图表示学习的应用

最新推荐文章于 2024-01-10 16:47:47 发布

weixin_45519842

最新推荐文章于 2024-01-10 16:47:47 发布

阅读量963

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45519842/article/details/108470474

版权

0 前言

近些年的顶会，出现了一部分利用互信息取得很好效果的工作，它们横跨NLP、CV以及graph等领域。笔者最近也在浸淫（meng bi）这一方向，在这里和大家简要分享一些看法，如有雷同，不胜荣幸。

1 互信息简介

互信息的概念大家都不陌生，它基于香农熵，衡量了两个随机变量间的依赖程度。而不同于普通的相似性度量方法，互信息可以捕捉到变量间非线性的统计相关性，因而可以认为其能度量真实的依赖性。给定两个变量X和Z，它们的互信息如下：

第一个式子认为，互信息就是当给定变量Z时，观察者对变量X的不确定度的减少量；第二个式子中，以及分别是两个变量的联合分布和它们各自的边缘分布，如果是离散情况，积分号变为求和号即可。

根据第二个公式可得到互信息的一个有趣性质，即和KL散度的联系：

直观上说，a、单独考虑两个变量 b、综合考虑两个变量，如果这两种情况导致的结果差别很大，则他们关系不浅啊~ 这个性质很重要！！！ 正是它引起了一场血雨腥风。

2 互信息神经估计

互信息看似美好而强大，但是也有其明显的缺陷。最主要的一点，它很难被计算。到目前为止，只有离散的情况以及有限几种分布已知的连续的情况，互信息才可被精确计算。但聪明的人们想到了一种曲线救国的办法。

我们已经说过互信息和KL散度之间关系密切，而MINE[1]正是从这点开刀。它借鉴了另一篇文章的做法，用DV（Donsker-Varadhan）表示来逼近KL散度，即：

上式中的T属于这样一族函数：定义域是P或Q，值域是R，可以看成是对于输入的打分。也就是说，从这样一族函数中，找出使右边最大的函数T，则相当于算出了P和Q的KL散度。

用来估计互信息，就是这样：

然而，函数族的搜索空间非常大，找出符合条件的T几乎不可能。于是，作者将T参数化为神经网络，称为统计网络。这个公式的意义在于，它找到了一个互信息的较为紧致的下界：，这样通过梯度更新不断抬高该下界，就变相增大了X和Z间的互信息。

还有一点是关于以及

最低0.47元/天解锁文章

weixin_45519842

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
互信息及其在图表示学习的应用

0 前言近些年的顶会，出现了一部分利用互信息取得很好效果的工作，它们横跨NLP、CV以及graph等领域。笔者最近也在浸淫（meng bi）这一方向，在这里和大家简要分享一些看法，如有雷...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。