推荐系统中的选择偏差及处理

最新推荐文章于 2022-05-16 19:02:59 发布

xiedelong

最新推荐文章于 2022-05-16 19:02:59 发布

阅读量5.7k

点赞数 2

分类专栏：算法

本文链接：https://blog.csdn.net/xiedelong/article/details/110392184

版权

算法专栏收录该内容

71 篇文章 4 订阅

订阅专栏

定义

选择偏差(Selection bias)是指在对个人、群体或数据进行选择分析时引入的偏差，这种选择方式没有达到适当的随机化，从而确保所获得的样本不能代表拟分析的总体。它有时被称为选择效应。

https://zhuanlan.zhihu.com/p/26143968
https://www.zhihu.com/question/29769549
https://zhuanlan.zhihu.com/p/102974409

自选择偏差

自选择偏差是指解释变量不是随机的，而是个体选择的结果，而这个选择的过程会使对主效应的估计产生偏差。
例如研究是否上大学对收入的影响，我们将上大学的和没上大学的人进行简单比较，我们会发现大学生的平均工资比没上过大学的人的平均工资高。事实上，这种简单比较就存在严重的自选择问题，因为在这里比较的两类人在自身特质方面可能存在很大差异，上大学的孩子可能本身就很出色（更聪明、有毅力、能力强…），因而更有可能获得更高的收入。

样本选择偏差

如在给定的召回集中（top50）进行排序，屏幕展示的时候只展示top10，训练的时候就只有top10的正负样本（点击/未点击），因此这个训练集是有偏的

样本选择偏差(sample selection bias,SSB)：传统的推荐系统仅用点击样本Xc来训练CVR预估模型，但训练好的模型是在整个样本空间X去做推断的。由于点击事件相对于曝光事件来说要少很多，因此只是样本空间X的一个很小的子集，从Xc上提取的特征相对于从X中提取的特征而言是有偏的，甚至是很不相同。从而，按这种方法构建的训练样本集相当于是从一个与真实分布不一致的分布中采样得到的，这一定程度上违背了机器学习中独立同分布的假设。这种训练样本从整体样本空间的一个较小子集中提取，而训练得到的模型却需要对整个样本空间中的样本做推断预测的现象称之为样本选择偏差。样本选择偏差会伤害学到的模型的泛化性能。
在这里插入图片描述

位置偏差

排序位置因素对用户点击行为的影响，如谷歌搜索中很多点击都集中在搜索页面的头部，这一方面是因为谷歌搜索的结果精准，另一方面也是因为用户对谷歌的盲目信任。很多用户会想，既然谷歌把这篇文章放在第一位，那肯定是好文章。

解决办法

自选择偏差：保证AB实验的用户群体一致
样本选择偏差：多目标学习，使用整个样本空间的数据，未曝光

CVR的时候，除了选择点击-转化作为正样本，点击-未转化作为负样本，还选择曝光-未点击的采样作为负样本 All Missing As Negative (AMAN) appliesrandom sampling strategy to select un-clicked impressions as nega-tive examples [6]. It can eliminate theSSBproblem to some degreeby introducing unobserved examples, but results in a consistentlyunderestimated prediction.

位置偏差：

skipabove 采样
参考：https://dl.acm.org/doi/10.1145/3298689.3346997

xiedelong

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
推荐系统中的选择偏差及处理

定义选择偏差(Selection bias)是指在对个人、群体或数据进行选择分析时引入的偏差，这种选择方式没有达到适当的随机化，从而确保所获得的样本不能代表拟分析的总体。它有时被称为选择效应。https://zhuanlan.zhihu.com/p/26143968https://www.zhihu.com/question/29769549https://zhuanlan.zhihu.com/p/102974409自选择偏差自选择偏差是指解释变量不是随机的，而是个体选择的结果，而这个选择的
复制链接

扫一扫