基础
https://www.jiqizhixin.com/articles/2018-05-29-2
蒸馏中的logits常用loss
KL散度也叫相对熵。可以理解为,q分布相对p分布的差异。
可以理解为相对距离。
参考:https://zh.wikipedia.org/wiki/%E7%9B%B8%E5%AF%B9%E7%86%B5
和交叉熵的关系
如何通俗的解释交叉熵与相对熵? - Peiwen的回答 - 知乎 https://www.zhihu.com/question/41252833/answer/195901726
torch实现
https://pytorch.org/docs/stable/generated/torch.nn.KLDivLoss.html
demo
from torch import nn
import torch.nn.functional as F
im