Distillation based Multi-task Learning: A Candidate Generation Model for Improving Reading Duration

最新推荐文章于 2024-05-05 22:39:09 发布

亓逸

最新推荐文章于 2024-05-05 22:39:09 发布

阅读量351

点赞数 9

文章标签：推荐算法机器学习搜索引擎

本文链接：https://blog.csdn.net/weixin_44974875/article/details/135762305

版权

2021 腾讯看点
召回蒸馏多目标排序模型

问题：

为了提高用户体验，应该对阅读duration 进行建模

样本
时长和点击是有依赖性的，点击un-clicked 可以为负样本，但是un-clicked 的样本在时长上如果当作0 处理的话，就和点击click-short duration 所一致了。并且点击label=0，时长label肯定=0（类似MMoE 了）

组成为：pCTCVR = pCTR * pCVR
在这里插入图片描述

Loss

腾讯 2021 看点推荐
teacher 模型Loss
典型ESMM loss
在这里插入图片描述

student 模型Loss（双塔）
为了尽可能拟合MMoE 的pCTCVR 的打分，那就用KL Loss 呗
在这里插入图片描述

总loss
在这里插入图片描述

为了避免train 阶段teacher model 受 student model 的影响，student model 的参数会与teacher model 参数分离，计算student 梯度的视后，会frozen teacher model

细枝末节

模型U2I 训练侧相似度度量方法为内积，构建向量索引也是根据内积
Metric：AUC 正样本为 clicked-impressions duration > 50s，其它都是负样本。下面有个评估指标
a. DSSM-Regression 通过duration 均方差进行训练，负样本 duration 为0
b. DSSM-Classification：正样本为duration > 50s，其余为负样本，loss 为交叉熵
c. DSSM-Click：正样本为点击，其余为负样本，loss 交叉熵（ctr 任务）
在线A/B（用四个召回分支的平均阅读时间作A/B 指标对比是不是有点欠妥呢？其它指标如何关注，经典vv 换时长也可以达到这个效果，文章也没有详细讲明…）
teacher model：1024 × 512 × 256，expert=2（256 × 256）
student model：512 × 256 × 128
建模时长的任务还是于二分类任务，用个中位数来切分，不太妥，非常影响后续生态的维护和分布

关注