Questions
这份整理主要针对以下问题:
1、什么是KL散度?什么是交叉熵?他们之间有什么关系?
2、什么是Logits层?
3、在知识蒸馏模型中Logits层的损失函数是什么?何处使用KL散度损失函数、交叉熵损失函数、L2Loss?
4、为什么深度网络(vgg,resnet)最后都不使用softmax函数,而是直接使用fc层的输出作为output?
我的理解
什么是KL散度?什么是交叉熵?他们之间有什么关系?
KL散度定义是:
D
K
L
(
p
,
q
)
=
∑
i
=
1
n
p
(
x
i
)
⋅
log
q
(
x
i
)
p
(
x
i
)
=
∑
i
=
1
n
p
(
x
i
)
⋅
log
q
(
x
i
)
−
∑
i
=
1
n
p
(
x
i
)
⋅
log
p
(
x
i
)
=
H
(
p
,
q
)
+
H
(
p
)
\begin{aligned} D_{K L}(p , q) & =\sum_{i=1}^{n} p\left(x_{i}\right) \cdot \log \frac{q\left(x_{i}\right)}{p\left(x_{i}\right)} \\ & =\sum_{i=1}^{n} p\left(x_{i}\right) \cdot \log q\left(x_{i}\right)-\sum_{i=1}^{n} p\left(x_{i}\right) \cdot \log p\left(x_{i}\right) \\ & =H(p, q)+H(p) \end{aligned}
DKL(p,q)=i=1∑np(xi)⋅logp(xi)q(xi)=i=1∑np(xi)⋅logq(xi)−i=1∑np(xi)⋅logp(xi)=H(p,q)+H(p)
交叉熵CrossEntropy的定义是:
H
(
p
,
q
)
=
−
∑
i
=
1
n
p
(
x
i
)
log
q
(
x
i
)
H(p, q)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log q\left(x_{i}\right)
H(p,q)=−i=1∑np(xi)logq(xi)
信息熵的定义是:
H
(
p
)
=
−
∑
i
=
1
n
p
(
x
i
)
log
p
(
x
i
)
H(p)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)
H(p)=−i=1∑np(xi)logp(xi)
KL散度和交叉熵都可以衡量两个分布之间的差异,他们之间的关系是KL散度 - 信息熵 = CrossEntropy
。如果p
是样本的ont-hot label(真实标签)的话,那么KL散度就是交叉熵,因为
H
(
p
)
=
0
H(p)=0
H(p)=0 。
什么是Logits?
神经网络最后一层(全连接层)的输出就是Logits,是一个分类概率分布,其size是
(
b
a
t
c
h
,
c
l
a
s
s
)
(batch, class)
(batch,class) ,class
是类别数量。之后使用
s
i
g
m
o
i
d
sigmoid
sigmoid 函数或者
s
o
f
t
m
a
x
softmax
softmax 函数做归一化得到最终的分类概率分布。对于概率分布,惯例上还是使用KL散度或交叉熵更好(存疑,具体效果没有试验过)。
在知识蒸馏模型中Logits的损失函数是什么?何处使用KL散度损失函数、交叉熵损失函数、L2Loss?
Logits层的损失函数要根据使用的场景来确定。
第一种解释
1、损失函数的功能是通过样本来计算模型分布与目标分布间的差异,在分布差异计算中,KL散度是最合适的。但在实际中,某一事件的标签是已知不变的(即one-hot label,例如我们设置猫的label为1,那么所有关于猫的样本都要分类为猫的概率都是1),即目标分布的熵为常数。而根据KL公式可以看到,KL散度 - 目标分布熵 = 交叉熵(这里的“-”表示裁剪)。所以我们不用计算KL散度,只需要计算交叉熵就可以得到模型分布与目标分布的损失值。
2、但是注意:模型分布与目标分布差异可用交叉熵代替KL散度的条件是目标分布为常数。如果目标分布是有变化的(如同为猫的样本,不同的样本,其分类为猫的概率也会有差异),那么就不能使用交叉熵,例如知识蒸馏模型的计算student model和teacher model之间的差异时,损失函数就是KL散度,因为蒸馏模型的目标分布(即teacher model的输出)也是一个模型,分布并不是确定的,该模型针对同类别的不同样本,会给出不同的预测值(如两张猫的图片a和b,目标模型对a预测为猫的值是0.6,对b预测为猫的值是0.8)。
第二种解释
1、交叉熵:其用来衡量在给定的真实分布下,使用非真实分布所指定的策略消除系统的不确定性所需要付出的努力的大小。这也是为什么在机器学习中的分类算法中,我们总是最小化交叉熵,因为交叉熵越低,就证明由算法所产生的策略最接近最优策略,也间接证明我们算法所算出的非真实分布越接近真实分布。
2、KL散度(相对熵):衡量不同策略之间的差异呢,所以我们使用KL散度来做模型分布的拟合损失。
L2loss
通常用来衡量两个向量之间的差异,例如知识蒸馏模型中的student model和teacher model的中间特征图,对于概率分布,惯例上还是使用KL散度或交叉熵更好(存疑,具体效果没有试验过)。
为什么深度网络(vgg,resnet)最后都不使用softmax函数,而是直接使用fc层的输出(即Logits)作为output?
直接使用 n n . C r o s s E n t r o p y L o s s ( l o g i t s , t a r g e t ) nn.CrossEntropyLoss(logits, target) nn.CrossEntropyLoss(logits,target) ,这并不是不使用 s o f t m a x softmax softmax,而是没有显式使用 s o f t m a x softmax softmax 函数。在 n n . C r o s s E n t r o p y L o s s ( l o g i t s , t a r g e t ) nn.CrossEntropyLoss(logits, target) nn.CrossEntropyLoss(logits,target) 函数中包含两个步骤: n n . l o g S o f t m a x ( ) nn.logSoftmax() nn.logSoftmax() 和 n n . N L L L o s s ( ) nn.NLLLoss() nn.NLLLoss() 。
1、
n
n
.
l
o
g
S
o
f
t
m
a
x
(
)
nn.logSoftmax()
nn.logSoftmax()
n
n
.
l
o
g
S
o
f
t
m
a
x
(
)
=
l
o
g
(
s
o
f
t
m
a
x
(
x
)
)
=
l
o
g
(
e
x
i
∑
j
e
x
j
)
nn.logSoftmax()=log(softmax(x))=log(\frac{e^{x_i}}{\sum_j{e^{x_j}}})
nn.logSoftmax()=log(softmax(x))=log(∑jexjexi)
也就是softmax套了个log的壳。
这样做是因为:首先使用softmax函数就可以使得数值保持在0-1之间,取log函数可以将乘法改为加法,减少计算量,并且保持函数的单调性。
2、 n n . N L L L o s s ( ) nn.NLLLoss() nn.NLLLoss()
这一步就是使用交叉熵函数计算损失,由于上一步 n n . l o g S o f t m a x ( ) nn.logSoftmax() nn.logSoftmax() 已经做好 H ( p , q ) = − ∑ i = 1 n p ( x i ) log q ( x i ) H(p, q)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log q\left(x_{i}\right) H(p,q)=−∑i=1np(xi)logq(xi) 中 log q ( x i ) \log q\left(x_{i}\right) logq(xi) 的部分,因此可以直接用上一步的结果乘上另一个概率分布(ont-hot label或者teacher output)的值 p ( x i ) p(x_i) p(xi) 得到最后的结果。