【AAAI 2021】零样本知识蒸馏:Data-Free Knowledge Distillation with Soft Targeted Transfer Set Synthesis
论文地址:
https://arxiv.org/abs/2104.04868
主要问题:
实现无数据 KD 的关键思想是生成信息丰富的伪样本,从而可以近似原始训练样本的分布
主要思路:
这篇文章提出了一种新的无数据 KD 方法,即利用多元正态分布对教师的中间特征空间进行建模,并利用该分布生成的软目标标签合成伪样本作为传输集
这样的方法与直接建模软最大空间相比,对较浅层的输出分布进行建模可以获得更广义的软目标
主要贡献:
- 作者用多元正态分布对教师中间层的特征空间进行建模,并对从该分布中采样的目标优化伪样本,从而提高了合成样本的质量
- 通过对较浅层的输出分布进行建模,而不是直接建模目标采样的软最大空间,从而获得更广义的软目标,这有助于提高性能
- 利用各种基准网络架构和数据集进行评估可以发现,该算法比现有工作有了明显的改进
具体实现:
基本符号:
假设知识蒸馏中,教师模型和学生模型的输出分别是: