WSDM2023:Unbiased Knowledge Distillation for Recommendation

Unbiased Knowledge Distillation for Recommendation

INTRODUCTION

具有众多参数的大模型容量大,因此具有更好的精度。然而,它的成功需要大量的计算和内存成本,这将在推理阶段导致不可接受的延迟

知识蒸馏(knowledge distillation, KD)已被应用于推荐系统中,其目的是在保持模型性能的同时减小模型尺寸,使其难以应用于实际的推荐当中。

KD首先从训练集中训练一个大的teacher模型,然后在teacher生成的soft labels的监督下学习一个小的student模型

存在问题:蒸馏严重偏向流行项目

在这里插入图片描述

“Student”直接从数据中学习

KD的整体提升主要体现在受欢迎群体,而不受欢迎群体的表现则明显下降。


在这里插入图片描述

可以看出,得分最高的前10个项目严重偏向流行的物品

方法

知识蒸馏中软标签的质量是知识提炼的基础。

从因果角度看待蒸馏的偏差

在这里插入图片描述

𝑈 : user, 𝐼 : item, 𝑀 affinity score, 𝑍 item popularity, 𝑌 : soft label, 𝑆: student.

unbiased knowledge distillation strategy (UnKD)在Student模型学习过程中进行除偏

在这里插入图片描述

UnKD首先根据物品的受欢迎程度将物品划分为多个组,根据Teacher的soft labels对每组中的项目进行排序,采样一组Sug 正负项目对。
Loss函数:

在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值