JS散度

最新推荐文章于 2025-04-10 02:52:32 发布

_寒潭雁影

最新推荐文章于 2025-04-10 02:52:32 发布

阅读量1.6w

点赞数 9

分类专栏：神经网络数学基础机器学习数学基础文章标签： JS散度

本文链接：https://blog.csdn.net/weixinhum/article/details/85227476

版权

神经网络数学基础同时被 2 个专栏收录

11 篇文章

订阅专栏

机器学习数学基础

11 篇文章

订阅专栏

前面我们介绍了相对熵（KL散度）的概念，知道了它可以用来表示两个概率分布之间的差异，但有个不大好的地方是它并不是对称的，因此有时用它来训练神经网络会有顺序不同造成不一样的训练结果的情况（其实个人觉得也就是训练时间差异罢了，也没那么严重）。为了克服这个问题，有人就提出了一个新的衡量公式，叫做 $J S$ 散度，式子如下：
$\left( P _ { 1 } \| P _ { 2 } \right) = \frac { 1 } { 2 } K L \left( P _ { 1 } \| \frac { P _ { 1 } + P _ { 2 } } { 2 } \right) + \frac { 1 } { 2 } K L \left( P _ { 2 } \| \frac { P _ { 1 } + P _ { 2 } } { 2 } \right)$
如果有一点数学功底的人可以轻易看出这个公式对于 $P _ { 1 }$ 和 $P _ { 2 }$ 是对称的，而且因为是两个 $K L$ 的叠加，由相对熵的文章我们知道 $K L$ 的值一定是大于等于0的，因此这个公式也一定大于等于0。

现在只剩下一个关键问题，就是什么时候等于0的问题了。同样参考相对熵的文章我们知道当两个分布相同的时候等于0，那么换到这里，也就是：
$}=\frac { P _ { 1 } + P _ { 2 } }{ 2 }\ \qquad 且 \qquad P _ { 2 }=\frac { P _ { 1 } + P _ { 2 } } { 2 }$
的时候。可以轻易看出来， $J S$ 散度等于0的时候跟 $K L$ 散度一样，就是 $P _ { 1 }$ 和 $P _ { 2 }$ 完全一样的时候。那么推到这里，用 $J S$ 散度来表达两个概率分布的差异就问题不大了。