KL散度（相对熵）

最新推荐文章于 2024-06-16 10:45:52 发布

不喝也中

最新推荐文章于 2024-06-16 10:45:52 发布

阅读量1.3k

点赞数

分类专栏： # 回归问题文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_45741070/article/details/118254986

版权

回归问题专栏收录该内容

7 篇文章 0 订阅

订阅专栏

KL散度（相对熵）

1.定义
3.交叉熵损失函数避免梯度消失
2.非负性证明
3.参考

1.定义

先给出公式：
$KL(p(x)||q(x))=\int p(x)\log \frac{p(x)}{q(x)}dx=\int p(x)\log p(x)dx-\int p(x)\log q(x)dx\tag{1}$
(1)中第二项 $-\int p(x)\log q(x)dx$ 就是所谓的交叉熵。
(1)恒 $\ge 0$ ，其中第一项是常数，因此把交叉熵作为代价函数，其最小时 $K L = 0$ ， $q (x) = p (x)$ ，学到的模型最优。

3.交叉熵损失函数避免梯度消失

给定 $X_{N\times p}$ ，如果采用平方损失函数,我们有如下模型：
$S_{N\times 1}=X_{N\times p}W_{p\times 1}\\ Y_{N\times 1}=\sigma(S_{N\times 1})\\ Loss=\frac{1}{2}||Y-\hat{Y}||_2^2$ 根据链式求导法则： $\nabla _wL=\frac{\partial L}{\partial Y}\frac{\partial Y}{\partial S}\frac{\partial S}{\partial W}\\=X^T\cdot \sigma(S)\odot \sigma(S)\odot (1-\sigma(S))$ 因为 $\underset{x->\infty}{limits}\ \sigma(x)=0$ ，因此 $\sigma$ 函数会导致梯度消失现象。
如果采用交叉熵损失函数，我们有如下模型：
$S_{N\times 1}=X_{N\times p}W_{p\times 1}\\ Y_{N\times 1}=\sigma(S_{N\times 1})\\ Loss=\sum_{i=1}^N \hat{y_i}\log y_i+(1-\hat{y_i})\log (1-y_i)$ 根据链式求导法则：
$\frac{\partial L}{\partial Y}=\begin{bmatrix}\cdots\\\frac{\hat{y_i}}{y_i}-\frac{1-\hat y_i}{1-y_i}\\\cdots\end{bmatrix}=\begin{bmatrix}\cdots\\\frac{\hat{y_i}-y_i}{y_i{(1-y_i)}}\\\cdots\end{bmatrix}\\\frac{\partial Y}{\partial S}=\begin{bmatrix}\cdots\\y_i{(1-y_i)}\\\cdots\end{bmatrix}$ 因此 $\nabla _w L=X^T\cdot \begin{bmatrix}\cdots\\\hat{y_i}-y_i\\\cdots\end{bmatrix}=X^T\cdot (\hat{Y}-Y)$ 消去了 $\sigma (S)\odot \sigma (S)$ ，解决了梯度消失问题。

2.非负性证明

已知 $\ln x\le x-1\tag{2}\\for\ x\in (0,+\infty)$ 因此 $\begin{aligned}&-KL(p(x)||q(x))=\int p(x)\log \frac{q(x)}{p(x)}dx\\&\le\int p(x)(\frac{q(x)}{p(x)}-1)dx\\&=\int(q(x)-p(x))dx\\&=\int q(x)dx-\int p(x)dx\\&=1-1=0\end{aligned}\tag{3}$ 因此 $KL(p(x)||q(x))\ge 0\\KL(p(x)||q(x))=0\ iff.p(x)=q(x)\tag{4}$

3.参考

https://blog.csdn.net/weixinhum/article/details/85064685

不喝也中

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
KL散度（相对熵）

KL散度（相对熵）1.定义2.非负性证明3.参考1.定义先给出公式：KL(p(x)∣∣q(x))=∫p(x)log⁡p(x)q(x)dx=∫p(x)log⁡p(x)dx−∫p(x)log⁡q(x)dx(1)KL(p(x)||q(x))=\int p(x)\log \frac{p(x)}{q(x)}dx=\int p(x)\log p(x)dx-\int p(x)\log q(x)dx\tag{1}KL(p(x)∣∣q(x))=∫p(x)logq(x)p(x)dx=∫p(x)logp(x)dx−∫p(
复制链接

扫一扫

专栏目录