搜推广系统里的bias & debias

参考Paper《Bias and Debias in Recommender System: A Survey and Future Directions》

1、selection bias

选择性偏差指的是在研究过程中因样本选择的非随机性而导致得到的结论存在偏差。用户倾向于给自己喜欢或者不喜欢的物品进行打分。通常的解决办法有propensity score,同时学习打分预测任务和缺失数据预测任务。例如Improving Ad Click Prediction by Considering Non-displayed Events https://www.csie.ntu.edu.tw/~cjlin/papers/occtr/ctr_oc.pdf 同时对两种方法建模。通常这类偏差会作为exposure bias 解决。

2、exposure bias

这一问题通常见于计算广告中,曝光样本无法立刻知道是否会发生最终转化,通常的解决办法有,增加缓存,曝光日志等待时间足够长,直到有反馈回流再上报,确保样本的正确性。这应该也是最有效的办法,毕竟大力出奇迹。但是当硬件不允许时,就需要通过样本纠偏来矫正,也就是传说中的 delayed feedback. 有很多论文研究过相关的工作,通常的做法有对bias单独建模、通过importance sampling推导样本权重公式。

Modeling Delayed Feedback in Display Advertising是对延迟时间单独建模,主要思想就是对于还未观察到 conversion 的样本,不直接将其当做负样本,而是当前考虑 click 已发生的时间长短给模型不同大小的 gradient.

importance sampling 可以通过观测分布和真实分布之间的关系推导出采样权重,把这个权重作为样本的权重放到loss中,例如Addressing Delayed Feedback for Continuous Training with Neural Networks in CTR prediction中,将所有的样本在一开始都当做负样本,然后在正样本回传时多传一个正样本。那么就可以推导出观测值分布与真实分布的关系,通过权重纠偏。

3、position bias

收到推荐位置的影响,不同位置的样本是有偏的,第一个出现的内容作为正样本的概率会比后面的高,如果在训练时不做区分,那么位置靠后的样本也会受到不公平的待遇。

简单的做法可以是对位置靠后的正样本加权,负样本降权。如果一个用户看了50个视频,还能继续点赞,说明这个更大概率是他喜欢的,如果快滑,也更大可能是看了多个类似内容产生疲劳,而不是完全不感兴趣。因此可以设计与位置相关的正负样本权重,作为先验知识告诉模型。还有比较容易实现的方式有把postion作为一个特征放到模型中学习,但是这个特征只有在训练的时候可以获得,在线上预测时由于后面会经过混排等操作,是无法提前预知推荐的位置的,因此在预测时通常把这个特征置空。还有一种常用的办法就是添加一个debias 网络。在线下学习时,可以将位置作为一个特征输入到网络中,网络的输出作为一个bias加到最后的logit中,线上预测时就不用这个debias网络了。

4、popularity bias

用户经常会有从众心理。比如一个高热的视频,用户看到了他的点赞量,心里就会先入为主,觉得这个视频好看,从而有更高的概率完播或者点赞。这样会对低热的视频不友好,使得推荐系统的头部更加严重,而且从用户的正样本中,无法准确的获得用户的真实兴趣。准确的推荐重中之重是有清晰的label定义,必须首先告诉模型什么是用户真正感兴趣的,才能指望模型作出准确的预测。因此这个bias的纠正十分必要。

DICE(Disentangling Interest and Conformity with Causal Embedding)认为分数是用户兴趣和流行度分数的和,因此对流行度单独通过网络建模,和position bias 类似,这个网络输入可以是视频的流行度等特征,具体的样本选择时,loss时BPR loss,对每一个样本pair,分用户与视频是否有交互及视频之间的热度具体讨论,将两部分loss相加来分离兴趣和从众。详细讲解可见Glenn:流行度偏差:Disentangling User Interest and Conformity for Recommendation

 

推荐系统中的bias - 知乎

一文搞懂bias - 知乎

陈歪歪 - 知乎

推荐系统中的bias&&debias(二):position bias的消偏 - 知乎

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值