(笔记)Model Compression via Distillation and Quantization
原文链接:
https://arxiv.org/abs/1802.05668
代码:
https://github.com/antspy/quantized_distillation
摘要
主要介绍了两种算法。
1)加入知识蒸馏loss的量化训练。
2)训练量化集p。
算法一:加入知识蒸馏loss的量化训练
有一个浮点模型w,一个量化模型w^q,用量化模型计算前向loss(加上知识蒸馏的loss),对w^q计算梯度,用以更新浮点模型。每次前向计算之前用更新的浮点模型更新量化模型。
算法二:训练量化集p
此方法适合非线性量化。量化函数的输入为浮点模型参数w和量化集合p。训练在于优化量化集合p。
由量化函数、浮点模型w和量化集合p可得量化模型w^q,量化模型做前