问题:
深度模型相比LR模型,离线auc高于基线,线上ctr也高于,但是线上深度模型AUC低于基线。
一般,线上样本存在bias,新模型去测试基线流量和实验流量,实验流量auc会高。
AUC表示正样本得分比负样本得分高的概率。在CTR实际应用场景中,CTR预测常被用于对每个用户候选广告的排序。但是不同用户之间存在差异:有些用户天生就是点击率高。以往的评价指标对样本不区分用户地进行AUC的计算。论文采用的GAUC实现了用户级别的AUC计算,在单个用户AUC的基础上,按照点击次数或展示次数进行加权平均,消除了用户偏差对模型的影响,更准确的描述了模型的表现效果:
分析:
1 可能是auc失真,不同用户排序结果不可比
使用gauc衡量
2 用户auc分布
实验曝光未点击较多
分析2 去掉只曝光行为用户
结论:auc在高分段实验更有优势
3 浏览长度和双用户样本分布差异
结论
1 深度模型分布更均匀,召回差异小,auc不可比,gauc只能参考。
2 模型分布发生变化,深度模型召回后排序难度更高。线上AB实验样本不一致,auc无可比性。
3 新模型展示商品质量上升,用户点击数有限,导致分数高的样本加入负样本,auc降低。
参考:
https://zhuanlan.zhihu.com/p/42521586
作者:eerfgaofree
链接:https://www.jianshu.com/p/1fa628916394
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。