【综述】推荐系统偏差问题 & 去偏最新研究进展（Bias and Debias in Recommender System）

最新推荐文章于 2025-03-26 20:18:48 发布

最新推荐文章于 2025-03-26 20:18:48 发布

阅读量5.6k

点赞数 7

分类专栏：推荐系统论文文章标签：人工智能深度学习推荐系统数据挖掘论文阅读

本文链接：https://blog.csdn.net/weixin_45884316/article/details/127417409

版权

论文同时被 2 个专栏收录

18 篇文章

订阅专栏

推荐系统

9 篇文章

订阅专栏

本文深入探讨了推荐系统中的各种偏见，如选择偏差、曝光偏差和一致性偏差，以及流行度偏差和不公平性。介绍了常见的去偏方法，如倾向分数、数据插补和模型训练策略，并关注了通用解决方案和未来研究方向，如公平性和回路效应的缓解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

在顶会中，越来越多的研究关注Recsys Bias的问题，Recommendation debiasing成为了热点研究方向

主要参考文献
Bias Issues and Solutions in Recommender System Tutorial on the RecSys 2021
[2010.03240] Bias and Debias in Recommender System: A Survey and Future Directions Arxiv 2021

1. 推荐系统的反馈回路

在这里插入图片描述

1.1 User -> Data

从用户处收集数据，包括用户和商品的交互以及其他的side信息，表示为用户集合 $U=\left\{u_{1}, u_{2}, \ldots, u_{n}\right\}$ 和商品集合 $I=\left\{i_{1}, i_{2}, \ldots, i_{m}\right\}$ ，一般有隐式反馈和显示反馈两种场景

1.2 Data -> Model

基于收集到的数据进行推荐模型的学习，从历史的交互中学习用户的喜好，并且预测用户可能购买某个商品的概率等。

1.3 Model -> User

通过训练得到的模型部署上线，在用户访问时给用户推荐合适的内容，以满足用户的信息需求。这一阶段将影响用户未来的行为和决策。

2. 推荐系统中的Bias

2.1 数据偏差(data bias)

因为用户交互的数据是观察性的，而不是实验性的，即通过用户行为的训练数据不可避免的受到很多因素的影响，如：推荐系统的推荐机制、热点内容、舆论等。使得训练数据偏离真实场景中理想的数据分布：

在这里插入图片描述

Data bias 会进一步使推荐模型捕捉到这些偏差，从而导致次优推荐效果：

在这里插入图片描述

一般将数据偏差分为四类：

选择偏差(Selection Bias) —— 显示反馈
曝光偏差(Exposure Bias) —— 隐式反馈
一致性偏差(Conformity Bias)
位置偏差(Position Bias)

在这里插入图片描述

2.1.1 选择偏差(Selection Bias)

主要来自显示反馈(Explicit feedback)，因为用户可以自由选择对哪些项目进行评分，所以观察到的评分并不是所有评分的代表性样本（如下图）。

在这里插入图片描述

因为对哪些item评分不是随机出现在用户行为中，而是用户主观选择的：

在这里插入图片描述

用户会选择它们喜欢的商品进行打分;
用户更倾向于给特别好的商品和坏的商品打分

所以称数据是非随机缺失（Missing Not At Random, MNAR）。

2.1.2 曝光偏差(Exposure Bias)

主要来自隐式反馈(Implicit feedback)，用户只能看到一部分系统曝光的物品，并作出点击等反应。但是不包含的交互并不一定代表用户不喜欢（可能是用户不知道该物品）。

在这里插入图片描述

因为不存在的U-I交互可能是user dislike，也可能是unware，所以将未交互定义为负样本是存在偏差的。

在这里插入图片描述

推荐系统的曝光收到多个因素的影响：

Exposure Policy of RS
肯定收到已有推荐模型的影响，因此曝光偏差也被称为"previous model bias"
User Selection
用户可能会主动搜索并找到感兴趣的内容，因此用户的选择是决定曝光的一个因素，使相关内容更有可能被曝光。
User Background
用户社会背景是影响曝光的另一个因素，例如社区中的朋友、他们所属的社区和地理位置。
Item Popularity
热门商品更有可能被用户看到

2.1.3 一致性偏差(Conformity Bias)

因为用户倾向于在群体中做出与他人相似的行为，即使与他们自己的感受不符。
在这里插入图片描述

这个最典型的例子就是：如果很多其他人都打了高分，这个用户可能会改变自己的评分，避免过于严厉。导致用户的评分并不总是能反应该用户的真实偏好。

2.1.4 位置偏差(Position Bias)

位置偏差尤其发生在广告系统或搜索引擎场景中

用户倾向与列表头部的内容交互，而不太管这些内容是否真的是自己喜欢的，这就导致了明显的position bias
最近关于眼球追踪的研究表明，用户不太可能浏览在垂直列表中排名较低的内容，基本只注意到头部内容。
用户也比较相信列表头部的一些结果，然后停止评估其余结果。

2.2 模型偏差(Bias in Model)

偏见并不总是有害的。事实上，在模型设计中故意添加了一些归纳偏差，以实现一些理想的特性。

2.2.1 归纳偏差(Inductive Bias)

为了让模型更好地训练或者能泛化到训练集之外，需要做出一些假设。我们训练模型是为了能够在未见过的样本上有准确的预测，如果不对数据和模型做假设，那么泛化无从谈起。比如MF算法将用户和物品的交互估算成二者向量的内积，而何向南等的NCF采用神经网络作为其较好的泛化方法。

2.3 推荐结果中隐含着偏差(Bias and Unfairness in Results)

2.3.1 流行度偏差(Popularity Bias)

热门 items 受到超过本身应该有的 popularity 的关注，导致常见的中长尾现象，小部分热门 items 占据了大部分交互。在这种数据上训练模型，模型会倾向于给热门 items 打过高的分数，而默认对不热门 items 更加消极。

所以流行度偏差会降低推荐系统的个性化水平，并导致推荐结果的不公平。

在这里插入图片描述

Himan等人对流行偏见进行了实证检验。如上图所示，项目流行度和推荐频率之间的关系。我们可以发现，大多数推荐的商品都位于高人气区(H)。事实上，它们的推荐程度甚至比它们最初的受欢迎程度要高得多，从而放大了长尾效应。

如果忽略Popularuty bias，会产生以下几个问题：

加剧马太效应(Matthew effect)，流行偏差会进一步增加流行items的曝光机会——收集到更不平衡的数据。
降低了个性化程度，使得结果不再具有偶然性。总是推荐热门内容会损害用户体验，尤其是小众偏好的用户。
降低了推荐结果的公平性：流行的不一定是高质量的，那些与用户偏好更匹配的items反倒得不到曝光，这是不公平的。

2.3.2 不公平性(Unfairness)

对部分人有歧视，偏袒另一部分人。基于种族、性别、年龄、教育水平或财富等属性，不同的用户群体在数据中的被展现的机会通常是不平等的。这种不平衡又会被模型学到，进而可能导致系统性的歧视，降低弱势群体的被关注度。

例如，在工作推荐系统中，女性看到高薪工作和职业指导服务的广告较少，这是由性别失衡造成的。类似地，社交图中的朋友推荐可能会强化对多数人的历史偏见，并阻止少数人成为具有高影响力的社会影响者。书籍推荐系统更常见会推荐男性写的书等。因此，在推荐系统中重视和关注不公平性是相当重要的。

2.4 反馈回路放大bias

在这里插入图片描述

偏差的存在，使得现实世界中的推荐系统的整个反馈回路走向偏差放大的方向，偏差不断进行自我强化（数据偏差 → 数据不平衡 → 数据偏差）。

3. 偏差解决方案（Debiasing Methods）

3.1 Methods for Selection Bias

3.1.1 Debiasing in evaluation

由于打分只有部分可见，传统的评估通常是在可见的项目上做平均：
$\hat{H}_{\text {naive }}(\hat{r})=\frac{1}{\left|\left\{(u, i): s_{u i}=1\right\}\right|} \sum_{(u, i): s_{u i}=1} \delta\left(\hat{r}_{u i}, r_{u i}\right)$ 因此这不是对真实性能的无偏估计： $E_{O}\left[\hat{H}_{\text {naive }}(\hat{r})\right] \neq H(\hat{r})$

这种 gap 是由 selection bias 造成的。针对此问题目前有两个策略：

Propensity Score
将推荐视为类似于用特定药物治疗患者的干预措施。在这两个任务中，我们只知道某些患者(User)从某些治疗(Item)中获益的程度，而大多数患者治疗(user-item)的结果却不被观察到。对于这两个任务，一个很有效的策略是用相反的倾向分数加权(inverse propensity scores，IPS)观察结果。

对 selection bias 进行修正，估计函数为：
$\hat{H}_{I P S}(\hat{r} \mid \rho)=\frac{1}{|\mathcal{U}||\mathcal{I}|} \sum_{(u, i): s_{u i}=1} \frac{\delta\left(\hat{r}_{u i}, r_{u i}\right)}{\rho_{u i}}$
加入倾向分数将评价指标变为无偏的：
$\begin{aligned} \mathbb{E}_{S}\left[\hat{H}_{I P S}(\hat{r} \mid \rho)\right] &=\frac{1}{|\mathcal{U}||\mathcal{I}|} \sum_{u \in \mathcal{U}} \sum_{i \in I} \mathbb{E}_{S}\left[\frac{\delta\left(\hat{r}_{u i}, r_{u i}\right)}{\rho_{u i}} s_{u i}\right] \\ &=\frac{1}{|\mathcal{U}||\mathcal{I}|} \sum_{u \in \mathcal{U}} \sum_{i \in I} \delta\left(\hat{r}_{u i}, r_{u i}\right)=H(\hat{r}) \end{aligned}$ （本节详细证明可见之前文章）
ATOP
Steck等人提出的无偏的metricATOP来评估推荐性能。基于两个假设：
1）在可观察数据中，高rating在观察数据中随机缺失
2）对于其他rating值，只要他们丢失的概率比高rating数据高，就可以允许任意缺失数据机制
ATOP定义如下：
$\begin{aligned} \operatorname{TOPK}_{u}^{\mathrm{obs}}(k) &=\frac{N_{u}^{+, \mathrm{obs}, k}}{N_{u}^{+, \mathrm{obs}}} \\ \mathrm{TOPK}^{\mathrm{obs}}(k) &=\sum_{u} w^{u} \mathrm{TOPK}_{u}^{\mathrm{obs}}(k) \\ \mathrm{ATOP}^{\mathrm{obs}} &=\int_{0}^{1} \mathrm{TOPK}^{\mathrm{obs}}(k) d k \end{aligned}$ 作者证明了 $\mathrm{ATOP}^{\mathrm{obs}}$ 是对平均召回的无偏估计，且与用户平均精度成正比

Propensity Score 和 ATOP 依然存在问题：

IPS-based estimator 是否能够无偏取决于真实的倾向是否可以得到，如果不正确地指定倾向性，IPS估计量仍然是有偏的。
在实际中，缺失机制往往很复杂，针对ATOP假设并不总是有效的。

3.1.2 Debiasing in model training

（1）Joint Generative Model

让模型同时考虑 rating prediction task 和 missing data prediction task。这些工作假设用户选择 items 进行评分和评分值有关，具体来说， $s_{ui}$ 可能被建模成依赖于 $r_{ui}$ 的多项式、Logit model、MF model、binomial mixture model、social-enhanced model。这样，用户的偏好不仅基于打分值，还基于 missing mechanism。

在这里插入图片描述

缺点是导致模型过于复杂，难以训练。此外，这种模型大多是启发式设计，关于分布的假设在某些实际场景中可能不成立。

（2）Data Imputation (Relabeling)

selection bias 出现是因为数据的丢失不是随机的（如果是随机的，并不影响分布），这种思路是给未标注的数据添加伪标签，以此来使得训练集数据分布趋向于理想分布。

在这里插入图片描述

采用启发式(Heuristic)的优化方案。
如上图所示，Steck et al.提出了一个轻量的策略，直接给无标注数据插入标签 $r_0$ ，使用以下函数来优化：

$\hat{L}_{D I}=\sum_{u \in \mathcal{U}, i \in I} W_{u i} \cdot\left(r_{u i}^{o \& i}-\hat{r}_{u i}\right)^{2}$ 其中， $r_{u i}^{o \& i}$ 代表已观察或插入的标签， $\hat{r}_{u i}$ 是预测值， $W_{ui}$ 用来降低插入标签的影响。
缺点：如果因为模型的指定不当或经验误差，导致插入了错误的伪标签，就会影响训练，使模型次优

在这里插入图片描述

非对称三模型训练框架（asymmetric tri-training）
为解决Heuristic方案的问题，Saito et al.提出了asymmetric tri-training。首先预训练两个模型 A1、A2 来生成可信的伪标签，然后在生成的数据集上训练 A0。文章证明了这种训练方式优化了理想损失函数的上界。但是，最终性能还是依赖预训练模型 A2 的，从有偏数据中训练一个令人满意的 A2 也很困难。

（3）Propensity Score (Reweighting)

利用Propensity score来减轻选择偏差，直接以基于IPS的无偏估计量为目标并优化特定的loss：
$\hat{L}_{I P S}=\frac{1}{|\mathcal{U}||\mathcal{I}|} \sum_{(u, i): s_{u i}=1} \frac{\delta\left(\hat{r}_{u i}, r_{u i}^{o}\right)}{\rho_{u i}}$
这里的 $\rho_{u i}=p\left(s_{u i}=1\right)$ 起到类似权重的作用，所以可认为本质思想是Reweighting。因为IPS-based estimator 是对真实损失的无偏估计，所以可以消除 selection bias：
$\mathbb{E}\left[\hat{L}_{I P S}\right]=\mathbb{E}_{S, R}\left[\frac{1}{|\mathcal{U}||\mathcal{I}|} \sum_{u \in \mathcal{U}, i \in I} \frac{s_{u i} \delta\left(\hat{r}_{u i}, r_{u i}^{o}\right)}{\rho_{u i}}\right]=\frac{1}{|\mathcal{U} \| \mathcal{I}|} \sum_{u \in \mathcal{U}, i \in I} \mathbb{E}_{r_{u i}^{o} \sim p_{E}(R \mid U, I)}\left[\delta\left(\hat{r}_{u i}, r_{u i}^{o}\right)\right]=L$
但是正如之前evaluation部分提到的，IPS-based model 依赖于propensities策略，但是制定正确的策略并不容易。

（4）Doubly Robust Model (Relabeling+Reweighting)

上述两种方法中，data imputation-based models可能因伪标签不准确而存在大的 bias，IPS-based model通常有高方差的问题，Wang et al. 提出结合二者：
$\mathcal{E}_{\mathrm{DR}}=\frac{1}{|\mathcal{U} \| \mathcal{I}|} \sum_{u \in \mathcal{U}, i \in \mathcal{I}}\left(\delta\left(\hat{r}_{u i}, r_{u i}^{i}\right)+\frac{s_{u i}\left(\delta\left(\hat{r}_{u i}, r_{u i}^{i}\right)-\delta\left(\hat{r}_{u i}, r_{u i}^{o}\right)\right)}{\rho_{u i}}\right)$
虽然效果比单独的模型好，但是依然没有根本解决问题

3.2 Methods for Conformity Bias

目前有主要有两种思路解决Conformity Bias问题：

第一种认为用户的rating是符合公众意见。

在这里插入图片描述

例如在推荐基础模型中引入三个关键features： $c_{ui},a_{ui},d_{ui}$ ， $c_{ui}$ 表示用户打分前该item的打分数量， $a_{ui}$ 是平均打分， $d_{ui}$ 是打分的分布，最终预测评分由XGBoost输出：
$\hat{r}_{u i}=x g b\left(\left\{(1-\omega) \cdot t_{u i}+\omega \cdot a_{u i}, c_{u i}, a_{u i}, d_{u i}\right\}, \Theta_{x g b}\right)$
这样，我们可以解耦 conformity 和用户真正的喜好，从而做出合适的推荐。

另外一种方法是将用户的评分只作为用户喜好和社会影响的综合结果。很多工作在基础的推荐系统中利用 social factors 来生成最终的预测结果，并引入特定的参数来控制一致性偏差的影响。

3.3 Methods for Exposure Bias

针对 exposure bias 和 implicit feedback 中 negative signal 不可得的问题，一个直观的策略是将所有 unobserved interactions 视作负例，然后赋予他们置信度。目标函数可以表示为：
$\hat{L}_{W}=\frac{1}{|\mathcal{U}||\mathcal{I}|} \sum_{u \in \mathcal{U}, i \in I} W_{u i} \delta\left(\hat{r}_{u i}, s_{u i}\right)$ 其中， $s_{ui}$ 表示u-i交互是否可被观测， $W_{ui}$ 表示权重，指定权重的方法：

Heuristic weighting

在这里插入图片描述

典型的例子是加权的矩阵分解以及动态MF，未观测到的交互被赋予较低的权重，即 $s_{ui}=1$ 时 $W_{ui}=1$ ， $s_{ui}=1$ 时 $W_{ui}=c(0<c<1)$ 。这样做的动机是 unobserved data 相对不可信，有可能是不喜欢也可能是未知。还有很多工作则基于用户的活跃度指定置信度等。

但是赋予准确的置信权重是非常有挑战的，并且需要大量人类专家介入或者计算资源，才能搜索到合适的权重。

但是这种方法通常需要大量人类专家介入或者计算资源，才能搜索到最合适的权重。对于百万级别的数据，人工赋予权重更是不现实的。而比较粗糙设计的置信权重又会在估计用户偏好时引入经验误差

Sampling

在这里插入图片描述

采样决定了使用哪些数据更新以及使用的频次，给每个数据增加采样概率 $p_{ui}$ ，加权的目标函数可以写成：
$\mathbb{E}_{(u, i) \sim p}\left[\delta\left(\hat{r}_{u i}, s_{u i}\right)\right]=\sum_{u \in \mathcal{U}, i \in I} p_{u i} \delta\left(\hat{r}_{u i}, s_{u i}\right)$
采样起到了类似置信度权重的作用。例如 Logistical matrix factorization、BPR等采用均匀负样本采样，还有对热门负样本的过采样、利用社交网络来辅助采样、建立基于item的知识图谱进行采样等，但是这些策略都较难捕捉到真实的负样本。

在这里插入图片描述

Exposure-based model

开发基于曝光的模型，捕捉一个 item 曝光给一个用户的可能性。
在这里插入图片描述

3.4 Methods for Position Bias

Click model

在这里插入图片描述

对用户的浏览行为作为假设，并且通过优化可观察的 clicks 的似然来估计真实的相关性反馈。

Propensity Score

还是使用inverse propensity score，每个instance有一个和位置相关的权值，损失函数定义如下：
$L_{\mathrm{IPS}}(f)=\sum_{u \in \mathcal{U}, i \in I} \frac{1}{\rho(q)} s_{u i} \lambda(u, i \mid f)$
其中， $\lambda(u, i \mid f)$ 是度量函数，基于推荐系统 $f$ 对item的排序，比如可以是NDCG。

Trust-aware Models

位置不仅影响 items 的曝光，还影响用户的决策。前述的 propensity score 无法解决这个问题。所以显式地建模用户位置的影响

3.5 针对Data Biases的通用解决方案

大多数现有方法都是为解决特定场景中的一个或两个偏差而设计的。因此，当面对通常包含多种类型偏差的真实数据时，这些方法将无法满足要求。最近有一些关于多重数据偏差及其组合的通用解决方案的研究。这些方法借助于一个小的无偏数据集来 debias。例如，一些工作通过 domain adaption 或 knowledge distillation将知识从无偏数据转移到目标模型。

尽管这些方法能有效地处理各种数据偏差，但它们需要的无偏数据很难获得，成本高昂。因此，如何在不使用无偏数据的情况下开发通用解决方案仍然是一个开放的问题

3.6 Methods for Popularity Bias

Regularization

push the model towards ‘balanced’ recommendation lists by regularization

对抗训练(Adversarial Learning)

基本思路在推荐模型 $G$ 以及引入的adversary $D$ 之间进行min-max博弈

Causal Graphs

因果图是反事实推理的有力工具，这类方法首先建立因果图（causal graph）来解释 popularity bias，然后在图上应用反事实的干预来消除 bias。

Zheng等人利用因果推理解决流行偏差。他们假设用户对商品的点击行为取决于兴趣和流行程度，并构建了一个特定的因果图。为了解决用户兴趣和流行偏差的问题，作者考虑了两种嵌入方法：兴趣嵌入以捕获用户对商品的真实兴趣，以及流行度嵌入来捕获由流行度引起的伪兴趣。在多任务学习的框架下，可以利用特定原因的数据对这些嵌入进行训练。最后，兴趣嵌入将被用于最终推荐，在这里，受欢迎度偏差已经被消除。

Zhao et al. 和 Wang et al.从从众心理中追踪 popularity bias，并且根据 item 受欢迎程度进行因果干预，做出公平的推荐。Wei et al. 使用反事实归因来消除 item 受欢迎程度对预测结果的直接影响；Wang et al. 研究 popularity bias 如何在模型训练中发生。

其他方法

一种方式是引入 side information。例如 , Bressan et al. 引入社交信息。Abdollahpouri et al. 提出一个基于 re-ranking 的策略。它首先使用普通的推荐模型生成一个更大的推荐列表，然后依据 popularity 做 re-rank。此外，还有一个工作使用 propensity score 来降低 popularity items 在模型训练中的影响。

3.7 Methods for Unfairness

假设 $A, X, U$ 分别为 sensitive attributes、other observed attributes、unobserved attributes， $Y$ 表示预测的真值， $\hat{Y}$ 是预测模型基于 $A, X, U$ 的预测输出.

几种典型的 fairness：

Fairness Through Unawareness：如果敏感属性 $A$ 没有被显式地使用，那么这个模型是fair的
Individual Fairness：如果模型对相似的个体有相似的输出，则这个模型是 fair。例如个体 $i$ 和 $j$ 在某些特定的指标下相似，那么他们的预测值也要相似： $\hat{Y}(X(i), A(i)) \approx \hat{Y}(X(j), A(j))$
Demographic Parity：每一个 protected group（有用相同 sensitive attributes 的人）能够以相同概率受到 positive prediction。也就是要满足 $P(\hat{Y} \mid A=0)=P(\hat{Y} \mid A=1)$
Equality of Opportunity：每一个 protected group 在 positive class 中的概率相等，也就是 $P(\hat{Y}=1 \mid A=0, Y=1)=P(\hat{Y}=1 \mid A=1, Y=1)$
Counterfactual fairness：给定一个因果模型 $\cup X, F)$ ，如果在任意上下文 $X = x$ 和 $A = a$ ，对于任意的 y 以及从 $A$ 中获取的任意的 $a^{\prime}$ 满足 $P\left(\hat{Y}_{A \leftarrow a}(U)=y \mid X=x, A=a\right)=P\left(\hat{Y}_{A \leftarrow a^{\prime}}(U)=y \mid X=x, A=a\right)$

在这里插入图片描述

关于不公平的方案有四种处理策略：

Rebalancing
Regularization：将fairness的criteria作为正则来引导模型的优化;
Adversarial Learning：基本的想法是在预测模型和adversary模型之间进行min-max博弈;
Causal Modeling：公平性被定义为敏感属性的因果效应，通过在因果图上应用反事实干预来评估。

3.8 缓和回路效应(Mitigating Loop Effect)的方案

Uniform data

使用统一数据是解决问题的最直接的方法。为了收集统一的数据，这种方法通过使用 random logging policy 而不是普通的normal recommendation policy 来干预系统。也就是说，对于每个用户来说，他们不使用推荐模型来进行 items 推送，而是随机选择一些 items，并以均匀分布的方式对其进行排序。

统一的数据通常提供优质（gold-standard）的无偏信息，因为它打破了 feedback loop，不受各种偏差的影响。然而，该策略不可避免地会损害用户的体验和平台的收入，因此它通常被限制只能占用很小的在线流量。因此，如何用较小的统一数据来纠正偏差是一个关键的研究问题。

Yuan et al.从统一数据中学习 imputation model，并使用该模型 impute 所有被展示或没被展示的 items。Rosenfeld et al. 和 Bonner et al. 对有偏数据和统一数据采用了两种推荐模型，并进一步使用正则化项在模型之间传递知识；Liu et al. 利用知识蒸馏从统一的数据中提取信息，学习无偏推荐模型。Yu et al. 利用对训练实influence function 例进行再加权，使其在无偏验证集中损失更小。Chen et al. 提出从无偏数据中学习 optimal debiasing configures

强化学习(Reinforcement learning)

推荐系统存在 exploration-exploitation dilemma，其中 exploitation 预测最符合用户偏好的 items，而 exploration 是随机推荐 items，以收集更多无偏的用户反馈，更好地捕捉用户偏好。为了解决这一问题，大量研究通过构建一个 reinforcement learning (RL) agent 来探索交互式推荐。

与传统的推荐方法不同，RL 将信息搜索任务视为 agent（系统）与 users（环节）之间的序列交互。在交互过程中，agent 可以根据用户的历史信息或反馈（state ）不断更新策略，并生成最匹配用户偏好或 explore 用户偏好来获得长远的良好推荐效果（action ）。然后，用户将在推荐列表上给出反馈（即奖励，如评分或点击），以更新代理。因此，RL 能够平衡 exploitation 与 exploration 之间的竞争，最大化每个用户对系统的长期满意度。

4. 未来工作

1. Propensity Scores的评估

Propensity Scores是一种传统的debias策略。然而，只有当倾向性得分被正确地指定时，IPS策略的有效性和公正性才得到保证。

如何获得正确的Propensity Score仍是一个重要的研究课题。

2. 通用的Debiasing框架

我们可以发现，现有的方法通常只针对一个或两个特定的偏差而设计。然而，在现实世界中，各种Bias通常同时发生。推荐系统需要一个通用的借记框架来处理混合的偏差。这是一个很有前途的领域，但在很大程度上还没有得到充分的研究。

尽管具有挑战性，但仅仅是两到三种偏见的混合体值得首先探讨。IPS或其变体，已经成功地应用于各种偏差，是解决这一问题的一个有希望的解决方案。探索一种新的基于IPS的学习框架，总结IPS在不同偏差下的应用，并提供一种通用的倾向评分学习算法。

3. 知识加强的Debiasing

如何更好地利用这些辅助信息，因为属性不是孤立的，而是相互连接形成知识图的。知识图捕捉到更丰富的信息，这可能有助于理解数据偏差；知识图谱可能会成为开发featue-enhanced通用的debiasing框架的强有力工具。

4. 使用归因图来解释和推理

降低Bias的关键是对推荐模型或数据的发生、原因和影响进行推理。大多数Bias可以通过原因假设和因果图中的其他混淆因素来理解；Bias的理解还可以通过图中的因果路径来推理。所以设计一个更好的合适的因果图，它可以推理、debiasing和解释。

5. 动态Bias

实践中,bias通常是动态的而不是静态的，因素或bias往往会随着时间的推移而演变。探讨bias是如何演变的，分析动态bias是如何影响推荐系统的，这将是一个有趣而有价值的研究课题。

6. Fairness-Accuracy的平衡

现有的方法主要假设用户（或商品、组）的敏感属性作为输入的一部分提供。这种假设在某些实际情况下可能不成立。例如，在协同过滤中，包含诸如年龄和性别等敏感属性的用户配置文件会导致他们的行为模式不同；然而，这些配置文件是不被观察到的，但却隐含地影响了推荐性能。一个研究方向是了解在causality，设计公平性感知的协同过滤算法目前还没有。

更好的Evaluation

如何不偏不倚地评估推荐系统？现有的方法要么需要准确的倾向得分，要么依赖大量无偏见的数据。

然而，前者的准确性不能得到保证，而后者会损害用户体验，并且通常只限制在很小比例的在线流量上。统一的数据提供了黄金标准的无偏信息，但其规模小，使其不足以彻底评估推荐模型由于高方差。利用大规模有偏数据和小规模无偏数据探索新的evaluators将是一个有趣的方向。

其他参考文献和博客
[1] Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, and Aram Galstyan. 2019. A survey on bias and fairness in machine learning. arXiv preprint arXiv:1908.09635 (2019).
[2] Xiangyu Zhao, Long Xia, Jiliang Tang, and Dawei Yin. 2019. Deep reinforcement learning for search, recommendation, and online advertising: a survey. ACM SIGWEB Newsletter Spring (2019), 1–15.
[3] Chen J, Dong H, Wang X, et al. Bias and Debias in Recommender System: A Survey and Future Directions[J]. arXiv preprint arXiv:2010.03240, 2020.
[4]Schnabel T, Swaminathan A, Singh A, et al. Recommendations as treatments: Debiasing learning and evaluation[C]//international conference on machine learning. PMLR, 2016: 1670-1679.
[5]Ninareh Mehrabi, Fred Morstatter, Nripsuta Saxena, Kristina Lerman, and Aram Galstyan. 2019. A survey on bias and fairness in machine learning. arXiv preprint arXiv:1908.09635 (2019).

再度梳理偏差问题 & 推荐系统去偏最新研究进展 - 知乎 (zhihu.com)
Debiased Recommendation: 推荐系统去偏研究进展概述 - 知乎 (zhihu.com)
推荐系统中的Bias/Debias大全 - 知乎 (zhihu.com)
推荐系统中的 Bias - Bias and Debias in Recommender System: A Survey and Future Directions - 知乎 (zhihu.com)