优势特征蒸馏：阿里PFD-CSDN博客

本文链接：https://blog.csdn.net/whgyxy/article/details/136661857

文章探讨了在CTR/CVR预估任务中，如何利用无法在线获取的特权特征（如用户互动时长）进行有效蒸馏，通过Teacher-Student模型结构保持一致性。PFD采用一致结构的模型，同步训练可降低时间成本，实验表明结合MD和PFD可以提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Privileged Features Distillation at Taobao Recommendations

背景

ctr&cvr预估任务中有很多非常有区分性的特征没法使用，比如用户点击之后的互动时长、点击之后的一些页面动作信息，因为只有离线训练的时候能拿到，线上预估的时候是拿不到的，为了保持线上和线下的一致性，这些“优势特征”(Privileged Features)就会被忍痛割爱舍弃掉。那么如何有效利用这些优势特征呢？

解决方案

通过蒸馏的方式，teacher模型的特征输入包含了优势特征，teacher模型和student模型结构一样，只是特征输入不同，teacher模型将学习到的信息蒸馏迁移到student模型。student的输入中没有优势特征，这样线上infer的时候，student模型可以正常工作。

方案详情

与常规的蒸馏模型不同，PFD(Privileged Features Distillation)中teacher和student模型结构上是一致的，只是输入不同。常规的MD(Model Distillation)是teacher模型结构非常复杂，student模型结构简单。
对比如下：
在这里插入图片描述
特征输入 $\mathbf X$ ，优势特征 $\mathbf X^*$ ，student的模型参数 $\mathbf W_s$ ，teacher的模型参数 $\mathbf W_t$ ，student模型是原来的主模型，这里加了一个蒸馏loss $L_d$ ，蒸馏loss用来衡量是teacher模型输出和student模型输出的差异情况的。
如果teacher模型先训练好，然后再来训练student模型，loss如下
在这里插入图片描述