知识蒸馏 前置知识 Loss 现在分数-正确分数+1 例: 正则化 Regularization 用来防止过拟合 知识蒸馏相关 softmax 把分数转换为概率的一种方法,e的次方 hard targets 和 soft targets 蒸馏温度 T 在原来的softmax下,除以某个系数,让概率值相差不太大 知识蒸馏过程 Loss: hard loss: 传统交叉熵 distillation loss: 9 一般需要训练好的情趣额度较高的大的教师模型,和未训练的小的学生模型进行训练