机器学习:Kullback-Leibler Divergence(KL散度)以及R-dropout函数的通俗讲解

最新推荐文章于 2023-09-18 21:37:25 发布

唐僧爱吃唐僧肉

最新推荐文章于 2023-09-18 21:37:25 发布

阅读量2.3k

点赞数 1

分类专栏：损失函数变化

本文链接：https://blog.csdn.net/znevegiveup1/article/details/118758965

版权

损失函数变化专栏收录该内容

1 篇文章 0 订阅

订阅专栏

KL散度，最早是从信息论里演化而来的，信息熵的定义如下：
$-\sum\limits_{i=1}^{N}p(x_{i})log(p(x_{i}))$
其中 $p(x_{i})$ 表示事件 $x_{i}$ 发生的概率，信息熵反映的就是要表示一个概率分布需要的平均信息量。
定义KL散度值
$D_{KL}(p||q) = \sum\limits_{i=1}^{N}p(x_{i})(logp(x_{i})-logq(x_{i}))$
或者表示成下面这种形式：
$D_{KL}(p||q)$ 表示的就是概率p与概率q之间的差异，散度越小，概率p与概率q之间越接近，那么估计的概率分布与真实的概率分布也就越接近。
理解了KL散度，它计算出来的是两者的概率差，也就是说KL散度可以作为一种损失，来计算两者的概率差异

R-dropout操作
在介绍R-dropout操作之前，首先需要介绍dropout操作
dropout是训练和预测使用方法不同的一个对应的网络层
在训练的时候dropout使用的是以p概率将对应的元素变为0，而剩下1-p的概率为1/(1-p)。
通俗的说，比如使用dropout的概率为0.2，则需要将现在的数据(占比0.8)除以0.8得到最后的结果，这样输出的期望才能够与原来的期望相同，否则输出的期望与实际的结果会有一定的差异。
但是在测试的时候，需要使用整个训练好的模型，因此不需要dropout的网络层操作。
dropout对应的神经网络图注意使用dropout的神经网络一般在神经元较多的神经网络之中，神经元较少的神经网络一般不需要使用dropout操作，因为神经元较多的层更容易让整个神经网络进行预测的结果产生过拟合。
理解了KL散度和dropout操作的内容，我们就能够理解R-dropout进行的操作
不同模型训练经过不同的dropout可能会产生较大的差异，而我们这里通过KL散度将这些差异缩小，从而能够达到预测较准的情况
也就是说新的损失函数内容为： $L_{new} = L_{softmax}+\alpha L_{KL}$
这里放入R-dropout具体的代码进行讲解：

from tensorflow.keras.losses import kullback_leibler_divergence as kld
def categorical_crossentropy_with_rdrop(y_true, y_pred,alpha=1):
    """配合上述生成器的R-Drop Loss
    其实loss_kl的除以4，是为了在数量上对齐公式描述结果。
    """
    loss_ce = K.sparse_categorical_crossentropy(y_true, y_pred)  # 原来的loss
    #这里调用K.Sparse，一部分是常规的交叉熵
    loss_kl = kld(y_pred[::2], y_pred[1::2]) + kld(y_pred[1::2], y_pred[::2])
    #另一部分是两个模型的对称KL散度
    return K.mean(loss_ce) + K.mean(loss_kl) / 4 * alpha

这里首先调用的是交叉熵损失函数

loss_ce = K.sparse_categorical_crossentropy(y_true,y_pred)

获得对应的交叉熵损失的内容
接着调用对称KL散度的内容

loss_kl = kld(y_pred[::2],y_pred[1::2])+kld(y_pred[1::2],y_pred[::2])

这里的y_pred[::2]代表隔两个取出对应的数值，y_pred[1::2]代表从第一个位置开始隔两个取出对应的数值，也就是说这里的[0,2,4,6,8,…]为一组，[1,3,5,7,…]为一组，第一个KL散度让[0,2,4,6,8…]尽量往[1,3,5,7,…]去靠近，计算[0,2,4,6,8…]位置与[1,3,5,7…]位置的KL散度差，第二个KL散度让[1,3,5,7,…]尽量往[2,4,6,8,…]去靠近，计算[1,3,5,7…]到[2,4,6,8,…]位置的KL散度差，这个作为正则项进行调和两者的数值差，从而使得在收敛的时候不同的dropout算出来的结果尽量前去靠近。
另外一种配合交叉熵的写法

def crossentropy_with_rdrop(y_true, y_pred, alpha=4):
    """配合R-Drop的交叉熵损失
    """
    y_true = K.reshape(y_true, K.shape(y_pred)[:-1])
    y_true = K.cast(y_true, 'int32')
    loss1 = K.mean(K.sparse_categorical_crossentropy(y_true, y_pred))
    loss2 = kld(y_pred[::2], y_pred[1::2]) + kld(y_pred[1::2], y_pred[::2])
    return loss1 + K.mean(loss2) / 4 * alpha

单用交叉熵与交叉熵+R-dropout的区别
交叉熵的训练目标是：让目标类的得分大于非目标类的得分，这样模型就能正确地把目标类预测出来了，也就是说，如果只有交叉熵这一项，模型的训练结果顶多是：不同的Dropout下，目标类的得分都大于非目标类的得分
而不能做到：不同的Dropout下，每个类的得分一致。
假如目标类为第一个类别，那么预测结果是[0.5,0.2,0.3]或[0.5,0.3,0.2]对它来说都没有区别。但对于KL散度项每个类的得分都要参与计算，[0.5,0.2,0.3]或[0.5,0.3,0.2]是有非零损失的。

唐僧爱吃唐僧肉

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
11
评论
机器学习:Kullback-Leibler Divergence(KL散度)以及R-dropout函数的通俗讲解

KL散度，最早是从信息论里演化而来的，信息熵的定义如下：H=−∑i=1Np(xi)log(p(xi))H = -\sum\limits_{i=1}^{N}p(x_{i})log(p(x_{i}))H=−i=1∑Np(xi)log(p(xi))其中p(xi)p(x_{i})p(xi)表示事件xix_{i}xi发生的概率，信息熵反映的就是要表示一个概率分布需要的平均信息量。定义KL散度值DKL(p∣∣q)=∑i=1Np(xi)(logp(xi)−logq(xi))D_{KL}(p||q) =
复制链接

扫一扫