知识蒸馏与领域泛化都可以用在迁移学习上,领域泛化主要是对不同领域数据的特征映射到同一空间,知识蒸馏是将一个训练好的大的模型压缩成小的模型。已经训练好的大的模型叫做教师网络,知识蒸馏是将教师网络压缩成学生网络。
将教师网络的输出按式(1.4)进行计算,输出的soft label作为学生网络的label,学生网络的输出也按式(1.4)进行输出为soft prediction。学生网络的loss是蒸馏损失和学生损失的加权和,蒸馏损失是学生网络的输出soft prediction和教师网络的输出soft label的loss,学生损失是学生网络的hard prediction和数据的hard label的loss。
参考: