推荐系统中的bias&&debias(一):bias的成因、类型和影响

推荐系统中的bias在推荐业务中无可避免,且会对展示效果和推荐生态都会造成负面影响。推荐广告领域的海量论文大部分都聚焦在数据特征的表达,以及模型对用户行为数据的拟合上。如果不考虑固有的偏差,盲目地对数据进行拟合,会导致很多严重的问题,如线下评价与在线指标的不一致,损害用户对推荐服务的满意度和信任度等。
前一段时间实习的时候接触到一些debias的工作,正好借此机会系统的学习和整理了下这块的一些方法,第一篇作为总览先介绍下推荐系统中bias产生的原因,bias的类型以及bias会造成的影响,至于debias后续会跟几篇文章介绍一些方法(来自于业务总结,paper以及一些比赛方案提供的思路)。

关于bias和debias可以参照2020年的一篇综述《Bias and Debias in Recommender System: A Survey and Future Directions 》。文章从学术界的角度总结的bias的类型有很多,但是业界重点考虑到还是遗下几大类:position bias、exposure bias、selection bias和popularity bias。

position bias

position bias指的是ranking中的每个对象受到的关注会受到展现位置的影响,位置靠前的物品比位置靠后的物品更容易被用户注意到,也更容易获得点击,从而使模型对用户偏好的感知出现偏差。它的成因来自于用户的点击习惯,也是大部分人群的点击习惯:对于展示坑位靠前的,比如最前面展示的一两个位置,人们总是倾向于点击下他去看他,那么这些位置item的后验点击率一定是偏高的。如果再让模型去学就会高估,为此必须把位置偏置去掉,让模型去预估不包含位置信息的点击率。

exposure bias

曝光偏差主要来自用户的隐式反馈,如点击。用户只能看到一部分系统曝光的物品,并作出点击等反应。但是数据中不包含的交互并不一定代表用户不喜欢,还有可能是用户不知道该物品。

selection bias

选择偏差主要来自用户的显式反馈,如对物品的评分。由于用户倾向于对自己感兴趣的物品打分,很少对自己很少对自己不感兴趣的物品打分,造成了数据非随机缺失(Missing Not At Random, MNAR)问题,观察到的评分并不是所有评分的代表性样本,于是产生了选择偏差。

popularity bias

长尾现象在推荐数据中很常见:在大多数情况下,一小部分受欢迎的商品占了大多数用户交互的比例。当对这些长尾数据进行训练时,该模型通常会给热门项目的评分高于其理想值,而只是简单地将不受欢迎的商品预测为负值。因此,推荐热门商品的频率甚至比数据集中显示的原始受欢迎程度还要高。

在这里插入图片描述
Himan等人对流行偏见进行了实证检验。如上图所示,项目流行度和推荐频率之间的关系。我们可以发现,大多数推荐的商品都位于高人气区(H)。事实上,他们被推荐的程度甚至超过了他们最初的受欢迎程度.

忽略流行度经常会带来非常多的问题:
(1).降低个性化的程度影响,影响用户的体验;
(2).降低了推荐系统的公平性, 流行的商品却不一定是高质量的, 对流行商品的推荐会降低其它商品的曝光,这是不公平的;
(3).Popular Bias会增加流行商品的曝光率, 使得流行的商品越加流行,而推荐系统中的反馈回路则放大了偏差;

参考
1.https://zhuanlan.zhihu.com/p/293050486
2.https://zhuanlan.zhihu.com/p/380753374

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值