Unbiased Knowledge Distillation for Recommendation
INTRODUCTION
具有众多参数的大模型容量大,因此具有更好的精度。然而,它的成功需要大量的计算和内存成本,这将在推理阶段导致不可接受的延迟
知识蒸馏(knowledge distillation, KD)已被应用于推荐系统中,其目的是在保持模型性能的同时减小模型尺寸,使其难以应用于实际的推荐当中。
KD首先从训练集中训练一个大的teacher模型,然后在teacher生成的soft labels的监督下学习一个小的student模型
存在问题:蒸馏严重偏向流行项目
“Student”直接从数据中学习
KD的整体提升主要体现在受欢迎群体,而不受欢迎群体的表现则明显下降。
可以看出,得分最高的前10个项目严重偏向流行的物品
方法
知识蒸馏中软标签的质量是知识提炼的基础。
从因果角度看待蒸馏的偏差
𝑈 : user, 𝐼 : item, 𝑀 affinity score, 𝑍 item popularity, 𝑌 : soft label, 𝑆: student.
unbiased knowledge distillation strategy (UnKD)在Student模型学习过程中进行除偏
UnKD首先根据物品的受欢迎程度将物品划分为多个组,根据Teacher的soft labels对每组中的项目进行排序,采样一组Sug 正负项目对。
Loss函数: