(ICCV2019):Data-Free Learning of Student Networks(脱离原始数据的知识蒸馏)
核心思想
文章整体的结构
基于上图中的Teacher Network,训练一个Genetor生成与原始训练数据相似分布的数据,然后基于生成数据通过知识蒸馏对学生网络进行训练,从而实现无数据情况下的模型压缩。
所以核心就是如何训练Genetor,即论文中的3个loss:
作用:生成器生成的图片接近真实数据,那么它在Teacher Network上的输出应该同样接近于用于分类的One-hot向量
作用:对生成数据(随机噪声)进行约束,模拟真实数据在Feature Map上的响应
作用:引入信息熵损失,平衡生成数据的类别(信息熵越大,则每组图片的类别愈均衡)
实验结果
MNIST
可视化结果
CIFAR
CelebA
总结
通过组合多个loss,文章所提方案在MNIST、CIFAR、CelebA上取得的结果接近于采用数据的知识蒸馏方法
从可视化的角度看,与真实图片差距非常大,缺少在大型数据上的精度验证,可以作为一种特定方式尝试