高斯分布的KL散度

为啥不能修改昵称啊

已于 2022-12-18 18:04:53 修改

阅读量1k

点赞数 1

分类专栏：机器学习文章标签：概率论人工智能

于 2022-12-18 18:02:35 首次发布

本文链接：https://blog.csdn.net/weixin_43845922/article/details/128361065

版权

KL散度信息熵非负性高斯分布相对熵

关键词由CSDN通过智能技术生成

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

KL散度的定义：

在概率论或信息论中，KL散度(Kullback-Leibler divergence), 又称为相对熵(relative entropy),是藐视两个概率分布 P 和 Q 之间差异的一种方法。KL散度是非对称的，即 D(P || Q) ≠ D(Q || P)。在信息论中，D(P || Q)表示当用概率分布Q来拟合真是分布P时，产生的信息损耗，其中P表示真是分布，Q表示P的拟合分布。

有人将KL散度称为KL距离，但事实上，KL散度并不满足距离的概念，因为：
1）KL散度是非对称的
2）KL散度不满足三角不等式

对一个离散随机变量或连续随机变量的两个概率分布P和Q来说，KL散度的定义分别如下：

Discrete random variable
$D(P||Q)=\sum\limits_{i\in X}P(i)*\left[log\left(\frac{P(i)}{Q(i)}\right)\right]$
Continuous random variable
$D(P||Q)=\int_{x}P(x)*\left[log\left(\frac{P(x)}{Q(x)}\right)\right]dx$

KL散度和信息熵的关系

在信息论中,KL散度的物理意义：

信息量
信息奠基人香农（Shannon）认为“信息是用来消除随机不确定性的东西”，也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。
信息量的大小与信息发生的概率成反比。概率越大，信息量越小。概率越小，信息量越大。
设某一事件发生的概率为P(x)，其信息量表示为： $\mathrm{I(x)} = − log(P(x))=log\left(\frac{1}{P(x)}\right)$
其中 $\mathrm{I}(\mathrm{x})$ 表示信息量，这里 $l o g$ 表示以e为底的自然对数。
KL散度在信息论中有自己明确的物理意义，它是用来度量使用基于Q分布的编码来编码来自P分布的样本平均所需的额外的Bit个数。而其在机器学习领域的物理意义则是用来度量两个函数的相似程度或者相近程度，在泛函分析中也被频繁地用到。
下面式子中 ${\color{green}绿色}$ 和 ${\color{red}红色}$ 部分就表示 信息量。

在香农信息论中，用基于P的编码去编码来自P的样本，其最优编码平均所需要的比特个数(即这个字符集的熵)为：
$H(x)=\sum_{x\in X}{\color{blue}\underbrace{P(x)}_{P中各字符出现的频率} }*{\color{green}\underbrace{ log\left(\frac{1}{P(x)}\right)}_{P中此字符对应的编码长度}}$

用基于P的编码去编码来自Q的样本，则所需要的比特个数变为：
$H^{\prime}(x)=\sum_{x\in X}{\color{blue}\underbrace{P(x)}_{P中各字符出现的频率} }*{\color{red}\underbrace{ log\left(\frac{1}{Q(x)}\right)}_{此时各字符来自Q，各字符编码长度对应于Q的分布，与P无关}}$

于是，可以得出P与Q的KL散度：
$\begin{aligned} D(P||Q)=&H^{\prime}(x)-H(x)=\underset{x\in X}{\sum}P(x)*log(\frac{1}{Q(x)})-\underset{x\in X}{\sum}P(x)*log(\frac{1}{P(x)})\\ =&\underset{x\in X}{\sum}P(x)*log(\frac{P(x)}{Q(x)}) \end{aligned}$

KL散度非负的证明

利用Jensen不等式可以证明P与Q之间的KL散度一定是非负的：
Jensen不等式：
$log\underset{i}{\sum}\lambda_{i}y_{i}\ge \underset{i}{\sum}\lambda_{i}log\,y_{i}\quad\quad其中，\lambda_{i}\ge0,\underset{i}{\sum}\lambda_{i}=1$
$\begin{aligned} D(P||Q)=&\underset{x\in X}{\sum}P(x)*log(\frac{P(x)}{Q(x)})\\ =&\underset{x\sim P(x)}{E}\left[log\left(\frac{P(x)}{Q(x)}\right)\right]\\ =&-\underset{x\sim P(x)}{E}\left[log\left(\frac{Q(x)}{P(x)}\right)\right]\\ \ge&-log\left(\underset{x\in X}{\sum}P(x)*\frac{Q(x)}{P(x)}\right)=-log\left(\underset{x\in X}{\sum}Q(x)\right)=0 \end{aligned}$

我的另一篇博客___KL散度详解

参考KL散度的含义与性质

高斯分布的KL散度

一元高斯分布的KL散度

对于两个单一连续变量的高斯分布 $P(x)\sim \mathcal N(\mu_{1},\sigma_{1}^{2}),Q(x)\sim \mathcal N(\mu_{2},\sigma_{2}^{2})$ .
由连续随机变量的KL散度定义得：
$\begin{aligned} KL(P||Q)=&KL(\mathcal N(\mu_{1},\sigma_{1}^{2})||\mathcal N(\mu_{2},\sigma_{2}^{2})\\ \\ =&\int_{x}\frac{1}{\sigma_{1}\sqrt{2\pi}}e^{-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}}log\left(\frac{\frac{1}{\sigma_{1}\sqrt{2\pi}}e^{-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}}}{\frac{1}{\sigma_{2}\sqrt{2\pi}}e^{-\frac{(x-\mu_{2})^{2}}{2\sigma_{2}^{2}}}}\right)dx\\ \\ =&\int_{x}\frac{1}{\sigma_{1}\sqrt{2\pi}}e^{-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}}\left[log\frac{\sigma_{2}}{\sigma_{1}}-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}+\frac{(x-\mu_{2})^{2}}{2\sigma_{2}^{2}}\right]dx\\ \end{aligned}$
把上式分为3项来分别求解：
第一项：
$log\frac{\sigma_{2}}{\sigma_{1}}\int_{x}\frac{1}{\sigma_{1}\sqrt{2\pi}}e^{-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}}dx=log\frac{\sigma_{2}}{\sigma_{1}}$
第二项需要分辨出积分项为方差：
$\begin{aligned} -\frac{1}{\sigma_{1}\sqrt{2\pi}}\int_{x}\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}e^{-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}}dx =&-\frac{1}{\sigma_{1}\sqrt{2\pi}}\int_{x}\left(\frac{x-\mu_{1}}{\sigma_{1}\sqrt{2}}\right)^{2}e^{-\left(\frac{x-\mu_{1}}{\sigma_{1}\sqrt{2}}\right)^{2}}dx\\ =&-\frac{1}{\sqrt{\pi}}\int_{x}\left(\frac{x-\mu_{1}}{\sigma_{1}\sqrt{2}}\right)^{2}e^{-\left(\frac{x-\mu_{1}}{\sigma_{1}\sqrt{2}}\right)^{2}}d\left(\frac{x-\mu_{1}}{\sigma_{1}\sqrt{2}}\right)\\ =&-\frac{1}{\sqrt{\pi}}\int_{t}t^{2}.e^{-t^{2}}dt\\ =&-\frac{1}{\sqrt{\pi}}.\frac{\sqrt{\pi}}{2}\\ =&-\frac{1}{2} \end{aligned}$
$- - - - - - - - - - - - - - - 推导过程如下： - - - - - - - - - - - - - - - - - -$
$\int_{-\infty}^{+\infty}x^{2}.e^{-x^{2}}dx=2\int_{0}^{+\infty}x^{2}.e^{-x^{2}}dx\xlongequal{t=x^{2}}\int_{0}^{+\infty}\sqrt{t}.e^{-t}dt$
$\Gamma$ 函数如下：
$\Gamma(s) = \int_{0}^{+\infty}x^{s-1}.e^{-x}dx$
$\Gamma$ 函数的性质有：
$\Gamma(s+1) = s\Gamma(s)$
$\Gamma(1)=1\quad\quad\Gamma(\frac{1}{2})=\sqrt{\pi}\quad\quad\Gamma(n+1)=n!$

$\Gamma(\frac{3}{2})=\int_{0}^{+\infty}\sqrt{x}.e^{-x}dx=\Gamma(\frac{1}{2}+1)=\frac{1}{2}.\Gamma(\frac{1}{2})=\frac{\sqrt{\pi}}{2}$
所以：
$\int_{-\infty}^{+\infty}x^{2}.e^{-x^{2}}dx=\frac{\sqrt{\pi}}{2}$
$- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -$
第三项的积分内部分别是均方值、均值和常数，因此可以得到：
$\begin{aligned} \int_{x}\frac{1}{\sigma_{1}\sqrt{2\pi}}.\frac{(x-\mu_{2})^{2}}{2\sigma_{2}^{2}}.e^{-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}}dx=&\frac{1}{2\sigma_{1}\sigma_{2}^{2}\sqrt{2\pi}}\int_{x}\left(x^{2} -2x\mu_{2}+ \mu_{2}^{2}\right).e^{-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}}dx\\ =&\frac{\sigma_{1}^{2}+\mu_{1}^{2}-2\mu_{1}\mu_{2}+\mu_{2}^{2}}{2\sigma_{2}^{2}}\\ =&\frac{\sigma_{1}^{2}+(\mu_{1}-\mu_{2})^{2}}{2\sigma_{2}^{2}} \end{aligned}$
$- - - - - - - - - - - - - 计算过程： - - - - - - - - - - - - - - - -$
其中第一项为方差，第二项为奇函数全积分为0，第三项为常数可以提取为系数：
$\begin{aligned} \int_{x}\frac{1}{\sigma_{1}\sqrt{2\pi}}.\frac{(x-\mu_{2})^{2}}{2\sigma_{2}^{2}}.e^{-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}}dx=&\frac{1}{2\sigma_{2}^{2}}\int_{x}\left[(x-\mu_{1})^{2}+2(\mu_{1}-\mu_{2})(x-\mu_{1})+(\mu_{1}-\mu_{2})^{2}\right].\frac{1}{\sigma_{1}\sqrt{2\pi}}.e^{-\frac{(x-\mu_{1})^{2}}{2\sigma_{1}^{2}}}dx\\ =&\frac{\sigma_{1}^{2}+(\mu_{1}-\mu_{2})^{2}}{2\sigma_{2}^{2}} \end{aligned}$
$- - - - - - - - - - - - - - - - - - - - - - - - - - - - -$
整理最终结果得：
$\begin{aligned} KL(P||Q)=&KL(\mathcal N(\mu_{1},\sigma_{1}^{2})||\mathcal N(\mu_{2},\sigma_{2}^{2}))\\ =&log\frac{\sigma_{2}}{\sigma_{1}}+\frac{\sigma_{1}^{2}+(\mu_{1}-\mu_{2})^{2}}{2\sigma_{2}^{2}}-\frac{1}{2} \end{aligned}$

多元高斯分布的KL散度

$\mathrm{x}\in \mathbb{R}^{d}$
$\mathcal{N}(\mathrm{x} \mid \mu, \Sigma)=\frac{1}{(2 \pi)^{\frac{d}{2}}|\Sigma|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}(\mathrm{x}-\mu)^{\mathrm{T}} \Sigma^{-1}(\mathrm{x}-\mu)}$
$P(\mathrm{x})\sim\mathcal{N}(\mathrm{x}|\mu_{1},\Sigma_{1})\quad\quad \quad Q(\mathrm{x})\sim\mathcal{N}(\mathrm{x}|\mu_{2},\Sigma_{2})$
$\begin{aligned} &\mathrm{KL}\left(\mathcal{N}\left(\mathrm{x} \mid \mu_{1}, \Sigma_{1}\right)|| \mathcal{N}\left(\mathrm{x} \mid \mu_{2}, \Sigma_{2}\right)\right)\\ =&\int_{\mathrm{x}_{1}} \cdots \int_{\mathrm{x}_{\mathrm{d}}} \frac{1}{(2 \pi)^{\frac{\mathrm{d}}{2}}\left|\Sigma_{1}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right)} \log \frac{\frac{1}{(2 \pi)^{\frac{d}{2}}\left|\Sigma_{1}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right)}}{\frac{1}{(2 \pi)^{\frac{d}{2}}\left|\Sigma_{2}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{2}\right)^{\mathrm{T}} \Sigma_{2}^{-1}\left(\mathrm{x}-\mu_{2}\right)}} \mathrm{dx_{1 }} \cdots \mathrm{d} \mathrm{x}_{\mathrm{d}}\\ =&\int_{\mathrm{x}_{1}} \cdots \int_{\mathrm{x}_{\mathrm{d}}} \frac{1}{(2 \pi)^{\frac{d}{2}}\left|\Sigma_{1}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma^{-1}\left(\mathrm{x}-\mu_{1}\right)}\left[\frac{1}{2} \log \frac{\left|\Sigma_{2}\right|}{\left|\Sigma_{1}\right|}-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right)+\frac{1}{2}\left(\mathrm{x}-\mu_{2}\right)^{\mathrm{T}} \Sigma_{2}^{-1}\left(\mathrm{x}-\mu_{2}\right)\right] \mathrm{dx}_{1}\cdots\mathrm{dx_{d}} \end{aligned}$
同样分布计算3项的结果：
第一项：
$\frac{1}{2} \log \frac{\left|\Sigma_{2}\right|}{\left|\Sigma_{1}\right|} \int_{\mathrm{x}_{1}} \cdots \int_{\mathrm{x}_{\mathrm{d}}} \frac{1}{(2 \pi)^{\frac{d}{2}}\left|\Sigma_{1}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right)} \mathrm{dx}_{1} \cdots \mathrm{dx_{ \textrm {d } }}=\frac{1}{2} \log \frac{\left|\Sigma_{2}\right|}{\left|\Sigma_{1}\right|}$
第二项：
$-\frac{1}{2} \int_{\mathrm{x}_{1}} \cdots \int_{\mathrm{x}_{\mathrm{d}}} \frac{1}{(2 \pi)^{\frac{d}{2}}\left|\Sigma_{1}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right)}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right) \mathrm{dx}_{1} \cdots \mathrm{dx}_{\mathrm{d}}$

$\Sigma_{1}$ 为半正定对称矩阵，设 $\Sigma_{1}^{-1}=\mathrm{U^{T}U}, \mathrm{y}=\mathrm{U(x-\mu_{1})}$ , 由于线性变换矩阵就是雅克比矩阵，因此：
$\mathrm{dy}_{1} \cdots \mathrm{dy}_{\mathrm{d}}=|\mathrm{U}| \mathrm{dx}_{1} \cdots \mathrm{dx}_{\mathrm{d}}$
由 $|\Sigma_{1}^{-1}=|\mathrm{U^{2}}|$ ,可知 $|\Sigma_{1}^{-\frac{1}{2}}|=|\Sigma_{1}|^{-\frac{1}{2}}=|\mathrm{U}|$ , 因此：
$\begin{aligned} &-\frac{1}{2|\Sigma_{1}|^{\frac{1}{2}}}\int_{\mathrm{y_{1}}}\cdots\int_{\mathrm{y_{d}}}\frac{1}{(2\pi)^{\frac{d}{2}}}\mathrm{e^{-\frac{1}{2}y^{T}y}y^{T}y|U|^{-1}dy_{1}\cdots dy_{d}}\\ =&-\frac{1}{2\left|\Sigma_{1}\right|^{\frac{1}{2}}}\left|\Sigma_{1}\right|^{\frac{1}{2}} \cdot \mathrm{d}=-\frac{\mathrm{d}}{2} \\ \end{aligned}$
第三项：
需要用到的小技巧：
$\mathrm{x}^{T} A \mathrm{x}=\operatorname{tr}\left(A \mathrm{x}\mathrm{x}^{T}\right)$
$\begin{array}{l} \frac{1}{2} \int_{\mathrm{x}_{1}} \cdots \int_{\mathrm{x_{d}}} \frac{1}{(2 \pi)^{\frac{\mathrm{d}}{2}}\left|\Sigma_{1}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right)}\left(\mathrm{x}-\mu_{2}\right)^{\mathrm{T}} \Sigma_{2}^{-1}\left(\mathrm{x}-\mu_{2}\right) \mathrm{dx}_{1} \cdots \mathrm{dx}_{\mathrm{d}} \\ =\frac{1}{2} \int_{\mathrm{x}_{1}} \cdots \int_{\mathrm{x}_{\mathrm{d}}} \frac{1}{(2 \pi)^{\frac{d}{2}}\left|\Sigma_{1}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right)} \operatorname{tr}\left[\Sigma_{2}^{-1}\left(\mathrm{x}-\mu_{2}\right)\left(\mathrm{x}-\mu_{2}\right)^{\mathrm{T}}\right] \mathrm{dx}_{1} \cdots \mathrm{dx}_{\mathrm{d}} \\ =\frac{1}{2} \operatorname{tr}\left[\Sigma_{2}^{-1} \int_{\mathrm{x}_{1}} \cdots \int_{\mathrm{x}_{\mathrm{d}}} \frac{1}{(2 \pi)^{\frac{\mathrm{d}}{2}}\left|\Sigma_{1}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right)}\left(\mathrm{x}-\mu_{2}\right)\left(\mathrm{x}-\mu_{2}\right)^{\mathrm{T}}\right] \mathrm{dx_{1 }} \cdots \mathrm{dx}_{\mathrm{d}} \\ =\frac{1}{2} \operatorname{tr}\left[\Sigma_{2}^{-1} \int_{\mathrm{x}_{1}} \cdots \int_{\mathrm{x}_{\mathrm{d}}} \frac{1}{(2 \pi)^{\frac{\mathrm{d}}{2}}\left|\Sigma_{1}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right)}\left(\mathrm{xx}^{\mathrm{T}}-\mu_{2} \mathrm{x}^{\mathrm{T}}-\mathrm{x}_{2}^{\mathrm{T}}+\mu_{2} \mu_{2}^{\mathrm{T}}\right)\right] \mathrm{dx}_{1} \cdots \mathrm{dx}_{\mathrm{d}} \end{array}$
其中积分之后第一项为均方值，第二、三项为均值，第三项为常数：
$\begin{array}{l} \frac{1}{2} \operatorname{tr}\left[\Sigma_{2}^{-1} \int_{\mathrm{x} 1} \cdots \int_{\mathrm{x_{d}}} \frac{1}{(2 \pi)^{\frac{\mathrm{d}}{2}}\left|\Sigma_{1}\right|^{\frac{1}{2}}} \mathrm{e}^{-\frac{1}{2}\left(\mathrm{x}-\mu_{1}\right)^{\mathrm{T}} \Sigma_{1}^{-1}\left(\mathrm{x}-\mu_{1}\right)}\left(\mathrm{xx}^{\mathrm{T}}-\mu_{2} \mathrm{x}^{\mathrm{T}}-\mathrm{x} \mu_{2}^{\mathrm{T}}+\mu_{2} \mu_{2}^{\mathrm{T}}\right)\right] \mathrm{dx_{1 }} \cdots \mathrm{dx_{ \textrm {d } }} \\ =\frac{1}{2} \operatorname{tr}\left[\Sigma_{2}^{-1}\left(\Sigma_{1}+\mu_{1} \mu_{1}^{\mathrm{T}}-\mu_{2} \mu_{1}^{\mathrm{T}}-\mu_{1} \mu_{2}^{\mathrm{T}}+\mu_{2} \mu_{2}^{\mathrm{T}}\right)\right] \\ =\frac{1}{2}\left[\operatorname{tr}\left(\Sigma_{2}^{-1} \Sigma_{1}\right)+\operatorname{tr}\left(\Sigma_{2}^{-1}\left(\mu_{1}-\mu_{2}\right)\left(\mu_{1}-\mu_{2}\right)^{\mathrm{T}}\right)\right] \\ =\frac{1}{2}\left[\operatorname{tr}\left(\Sigma_{2}^{-1} \Sigma_{1}\right)+\left(\mu_{1}-\mu_{2}\right)^{\mathrm{T}} \Sigma_{2}^{-1}\left(\mu_{1}-\mu_{2}\right)\right] \end{array}$
整理最终结果，两个高斯分布的KL散度为：
$\mathrm{KL}\left(\mathcal{N}\left(\mathrm{x} \mid \mu_{1}, \Sigma_{1}\right)|| \mathcal{N}\left(\mathrm{x} \mid \mu_{2}, \Sigma_{2}\right)\right)=\frac{1}{2}\left[\log \frac{\left|\Sigma_{2}\right|}{\left|\Sigma_{1}\right|}-\mathrm{K}+\operatorname{tr}\left(\Sigma_{2}^{-1} \Sigma_{1}\right)+\left(\mu_{1}-\mu_{2}\right)^{\mathrm{T}} \Sigma_{2}^{-1}\left(\mu_{1}-\mu_{2}\right)\right]$