22-KDD-Can separate optimization be equal Joint vs multi-stage optimization in RS fairness

泡不会菜

已于 2023-06-27 16:44:36 修改

阅读量130

点赞数

分类专栏：读书笔记文章标签：推荐算法

于 2023-06-27 15:36:41 首次发布

本文链接：https://blog.csdn.net/weixin_44763868/article/details/131417910

版权

读书笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

文章探讨了在推荐系统中实现公平性的两种方法，即在创建推荐算法时考虑公平性以及在优化精度后再对结果进行公平性重排序。通过贝叶斯黑盒优化（BBO）对比单独优化和联合优化的效果，发现两者在公平性和准确性上没有显著差异。研究使用了Kiva小额信贷数据集，关注贷款规模和国家的公平问题。实验结果显示，单独优化和联合优化各有优势，但在公平/准确性权衡上没有一致的优劣，且联合优化需要更多计算时间。

摘要由CSDN通过智能技术生成

KY：recommender systems, fairness, bias, optimization
AB：公平推荐可以防止边缘化。本文考虑两种构建公平输出的推荐方法。一种方法是在创建推荐的算法中考虑公平性、一种方法是在优化推荐精度（已最大精度）后对结果重新排序。分别优化vs二者组合优化，效果没明显差异。

2 关于公平的优化

传统超参：学习率、正则权、隐因子数量、NN层数和大小。通过网格搜索。
本文：BBO——贝叶斯黑盒优化。BBO是将实验结果作为以超参数为条件的样本，并使用贝叶斯统计量来定位以最高概率提供最佳实验结果的参数。在我们的实验中，我们使用了在Optuna库[3]中实现的Parzen估计器树（TPE）方法，该方法集成到librec-auto推荐系统实验平台中。
我们可以把BBO看作是一个适用于参数化算法𝑓（𝐷，𝜃）的函数，其中𝐷是一些训练数据，𝜃是算法超参数。BBO算法是一个函数𝐵𝐵𝑂（𝑓，𝐷，𝑒）→𝜃∗，它发现准则𝑒下，应用于𝐷的𝑓的最优参数𝜃∗。
设𝐵是具有超参数𝜃_𝐵的基本算法，𝐶是具有超参数𝜃_𝐶的重排序算法。我们可以执行两个单独的优化：𝜃_𝐵=𝐵𝐵𝑂（𝐵，𝐷，𝑒_𝐵），然后是𝜃𝐶=𝐵𝐵𝑂（𝐵，𝐵（𝐷，𝜃_𝐵），𝑒_𝐶）。请注意，reranker的输入是从数据中学习到的推荐算法的输出。我们假设存在不同的精度标准𝑒_𝐵（忽略公平性）和公平性𝑒_𝐶。另一种方法是将整个过程视为组合系统上的单一联合优化。（𝜃_𝐵，𝜃_𝐶）=𝐵𝐵𝑂（𝐶（𝐵），𝐷，𝑒_𝐽），其中𝑒_𝐽是一些同时考虑准确性和公平性的联合标准。
本研究的关键问题是比较这两种方法。目前的实践（单独优化）和联合优化方法之间有什么区别？我们可能期望联合优化表现得更好，因为整体方法通常比贪婪的方法工作得更好，但如果是这样，它会更好多少？值得付出额外的努力来组合优化吗？请注意，使用联合方法，我们失去了重新排序的一个关键优势，即重新排序过程独立于基础算法。

3 算法

3.1 推荐算法

我们在一系列不同的（基本）推荐算法和reranker上测试我们的假设。在进行这种性质的研究时，有几十种推荐算法可供选择。我们的目标是选择涵盖了一系列不同的底层推荐逻辑和具有不同的公平性特征的算法。

有偏矩阵分解（BMF）
有偏矩阵分解（BMF），是一种著名的算法，它将用户评级矩阵表示为低维矩阵的乘积，其特征是隐因子之间的相互作用。因子分解技术的这种变化的特征是隔离了每个项目和用户的单独项目和用户偏见，它们分别是独立于隐因子学习的，产生以下形式的预测函数：BMF使用评级预测作为其损失的定义，并试图推导出隐因子（和偏差），以最小化对整个数据集的预测的误差。
贝叶斯个性化重排序（BPR）
贝叶斯个性化重排序（BPR），另一种类型的损失函数是旨在优化排名性能的：系统将preferred项目排名高于less-preferred目的能力。在这种情况下，我们不太关心数值预测值，而更多关心系统的判别能力。贝叶斯个性化重排序（BPR）是一种著名的优化排序精度的算法。它是基于损失函数的。
基于邻域的方法
基于邻域的方法，这是推荐系统中最古老的方法之一。稀疏线性方法（SLIM）[9]是kNN方法的一种推广。它将推荐视为用户项目评级矩阵的稀疏回归问题。

3.2 重排序算法

由于空间的限制，我们在实验中只选择了评估两种重新排序的算法。

FAR【B23】
FAR是来自信息检索的精确查询方面多样化（xQuAD）算法的扩展。xQuAD的目的是确保交付给用户的结果涉及到查询的所有方面。FAR寻求类似的多样化，但代表受保护的群体项目。我们使用了[1]中描述的比例版本（而不是二进制版本的FAR版本）。FAR可以被描述为一种“基于分数”的重新排名方法，因为它可以提高受保护组项目的分数，然后用更新的分数重新排序推荐列表。
FA * IR 【F26】
FA * IR 【F26】是完全不同的。FA*IR算法将项目分为两组：一组非受保护项和一组受保护项。每一组都是根据推荐系统计算出的偏好进行排序的。然后，该算法对每一组中可能包含的项目的选择进行搜索，以试图保持排名的准确性，同时在排名中公平地分配项目。

4 应用：小额贷款的公平性

Kiva.org是一个在线小额信贷网站，旨在允许个人为那些在服务不足地区的人提供帮助。Kiva汇集了世界各地实地合作伙伴的贷款请求，他们向当地社区的企业家提供少量资金。贷款的资金由Kiva的成员无息提供，主要是在美国。

4.1 数据集

我们从Kiva.org获得了一个专有的数据集，其中包含了2017年的所有贷款交易。原始的数据集包含了大约100万笔交易，涉及约12万笔贷款和20万名Kiva用户。然而，正如在[16]中所指出的，需要进行转换以使该集可用于协作推荐。
与许多包含可以无限使用或查看次数的项目的常见数据集不同，贷款一旦得到资助就会从Kiva.org上消失，以后的贷款人就无法查看或支持，即使他们想这样做。在我们的数据集中，任何贷款的最大profile是330个贷款机构，typical value在10左右。相比之下，一个电影数据集中的一部流行电影可能会被成千上万的用户评分。因此，借款人关系高度稀疏，贷款的profile非常小，使得传统的协同过滤方法无效。
为了解决这个问题，我们创建了一个版本的数据集，其中单个贷款项目被伪项目替换，伪项目表示具有相似属性的项目集群。然后，用户配置文件可以用这些伪项来表示，而不是用原始项来表示，从而生成一个更密集的数据集。因为这个数据集计划公开发布，所以我们还根据每个用户的平均贷款贡献对用户的贷款贡献进行了标准化。因此，不可能将特定的贷款金额与特定的支持贷款联系起来。我们还对最终的数据集应用了一个10个核的转换，以确保关于每个用户和每个项目都有足够的数据。最终的数据集有2,673个伪项目，4,005个贷款机构和110,371个评级/贷款行动。

4.2 公平

公平是一个复杂的概念，在不同的情况下可能以不同的方式定义，我们遵循【A23】，将fairness concern定义为相对于推荐结果的特定方面，以特定的方式进行评估。在这项工作中，我们专注于一次促进一个单一的公平问题（正如公平意识推荐的一般情况一样），尽管在Kiva数据集中可能会出现多个公平问题。早期的研究将国家、经济部门和贷款规模确定为可能需要寻求贷款公平的维度。在这项工作中，我们就贷款规模和国家的结果进行研究。Kiva的内部研究发现，发放给更大群体（而不是个人）的贷款在促进经济发展方面更有效，而且这类贷款不太可能得到贷款人的关注。因此，在这些实验中，我们利用价值最大的贷款（5000美元及以上的）作为受保护群体，并寻求增加其在推荐结果中的代表性。
Kiva的使命是“全球金融包容性”，因此确保资本地理分配中的公平性是另一个重要的公平问题。尽管Kiva系统中的大多数贷款最终都获得了资金支持（约85%），但贷款在该系统中停留的时间长短是一个重要的变量。如果贷款资金缓慢，借款人需要更长的时间来获得资金，贷款在Kiva系统中占据空间。此外，贷款也有可能根本不会得到资金支持，贷款人必须重新参与该系统，以选择一个不同的贷款来支持。因此，我们计算每笔贷款的百分比融资率（PFR）：
在这里插入图片描述
PFR值高的贷款是一种资金筹措迅速的贷款。由于贷款通常只有30天的时间来获得资金，最低的𝑃𝐹𝑅在3.33左右。我们确定了16个贷款𝑃𝐹𝑅分数最低的国家，并为了地理公平，将其列为受保护群体。其目的是更经常地推荐这些国家的贷款，以使各国的𝑃𝐹𝑅价值均衡。
我们将这项工作集中于提供方公平。借款人被认为是这个系统中的提供者，因为他们的资本请求被作为建议提交给Kiva系统的用户。用户侧公平性（针对这些最终用户的关注）并不是这个应用程序中的一个关键问题。然而，总的来说，重新排名也可以用来提高消费者方面的公平性，我们打算在未来的工作中探索这类应用。

5 方法

我们进行了两个实验：均考虑每个保护属性。对于每个实验，使用了三个交叉验证折叠，并取结果的平均值。所有的实验都使用open-source librec-auto recommendation platform（https://github.com/that-recsys-lab/librec-auto ）运行。对于每个算法、reranker和保护特征的组合，我们检验了精度和公平性的单独优化和这些特征的联合优化之间的差异。每个基本算法为每个用户产生50个推荐，reranker产生10个项目作为评估的最终输出列表。

5.1 评估指标

我们评估了推荐系统的性能，包括排名的准确性和公平性。我们使用NDCG@10评估准确性。
在推荐的环境中，有许多不同的方法来评估群体的公平性。我们选择了一种非常简单的提供方统计均等（PSP）方法来观察项目曝光情况，计算出现在推荐列表中的受保护组项目的数量减去未受保护组项目的数量，然后根据生成的推荐项的总数进行规范化。PSP的数值将在1到-1之间，其中0表示受保护组和未受保护组在推荐中平均表示，1表示输出中只有受保护组，-1表示输出中没有受保护组。
在这里插入图片描述
为了本研究的目的，我们认为10%的NDCG的损失是增加公平的可接受的权衡；这显然是一个非常适合应用的考虑。这意味着，在调整我们的重新排序算法时，我们正在寻求最佳的公平性（通过PSP），这可以在不牺牲超过10%的未排序NDCG值的情况下实现。对于联合优化，我们构造了一个联合优化函数𝐽，该函数对精度变化高达10%不敏感，但对公平性总是敏感的。
在这里插入图片描述

5.2 优化

如上所述，我们比较了两种不同的优化方法。对于单独优化，我们首先使用nDCG来优化了算法的准确性。我们对优化器进行了50次迭代，之前的实验表明，这足以确定最优参数。然后，我们对重新排序的参数进行网格搜索，以确定10%的精度损失点。我们使用了这种方法，而不是第二轮的黑箱优化，因为这些排序器只有一个参数来调优，而且网格搜索速度更快。
我们的第二种方法是将基础算法和重新排序算法作为单一系统进行联合优化。优化器的每次迭代都通过 reranker 评估了来自基础算法的整个推荐管道，并将 reranker 的参数包含在优化变量中。上面的优化函数𝐽用于确保在10%的损失范围内，优化器将只考虑公平性。请注意，黑盒优化的好处之一是，损失函数可以是任意的。
对于BPR，调整后的超参数是用户正则化、项目正则化、因子的数量和学习率。对于BiasedMF，调整后的参数是学习率、用户正则化、偏差正则化、因子的数量和最大学习率。SLIM的调谐参数为L1和L2正则化。

6 结果

实验1以贷款规模为受保护特性的结果如表1、表2以及图1a所示。正如我们所看到的，这两种优化方法具有相当的可比性。（在某些情况下，它们会重叠，在图上难以区分。）BPR显然是占主导地位的算法，它的所有变体都清楚地位于右上方的帕累托边界上。SLIM在准确性方面的表现相对较差，尽管它的结果可以被重新排序为更好的公平性。BMF的结果超过了SLIM，但低于BPR。
在实验2中，以国家为保护特征，BPR保留了最好的nDCG，但公平性最低，即使在重新排名后也是如此。任何算法都没有一致的模式，联合优化和两阶段重新排序再次执行类似，没有明显的主导表现。
表6描述了这些实验的总体结果，通过平均10% NDCG损失的公平性。这并不是一个一致的画面。单独优化一般是更好，但有些算法/数据集组合的情况更糟糕。这些差异都不太大。
应该注意的是，联合优化是一个比独立的两个过程时间得多的过程。虽然没有记录精确的计算时间，但相对于事后重新排序的方法，联合优化需要多达3到4倍的执行时间并不少见。我们的研究结果表明，这段额外的时间可能不值得。

7 RW

FAR使用简单的结果重新评分来提升受保护的组项目；FA*IR分别处理受保护和非受保护的项目，使用搜索来创建满足更严格的公平约束的列表。
我们使用三种研究充分的推荐算法作为基线算法： BPR [11]、偏置矩阵分解[2]和SLIM [9]。之所以选择这些方法，是因为它们涵盖了一系列不同的底层算法概念。矩阵因子分解优化预测误差，BPR优化排名损失，和SLIM使用一个基于实例的方法。众所周知，这些方法在流行偏好和推荐多样性方面具有不同的特征，这些特征出现在与reranker的交互中，每个基本算法产生的NDCG值差异很大，PSP的变化更有限。
这里使用的Optuna[3]实现只是自动探索学习算法的超参数空间的一种方法。另一个最新的发展是AutoML技术[7]的出现，它可以应用于更一般的一类问题，包括神经结构搜索和对不同算法类型的搜索。

8 结论和未来工作

在这项工作中，我们发现在优化精度和联合优化后的重新排序在准确性和公平性方面没有重大差异。这两种方法都没有一致的优势，这意味着如果主要目标是最小化公平/准确性的权衡，这两种方法都是可以接受的。然而，每种方法都有明显的优势：例如，单独的重新排序保持了基本算法结果的独立性，同时提供了大量的计算时间的好处。联合优化允许来自更大的搜索空间的结果，以及集成的排序器来增强结果的潜力。
这里提供的结果专门集中于Kiva数据集。这是推荐的一个重要应用程序，但它有一些特点，使它有别于其他通常部署推荐系统的应用程序，包括流媒体、电子商务和社交媒体。在我们未来的工作中，我们计划将我们的研究扩展到出现供应商侧公平问题的其他数据集。
如上所述，我们在这里的工作专门解决了供应商方面的公平性，着眼于借款人的两个不同方面：贷款金额和地理位置。在其他推荐系统应用程序中，例如，向求职者推荐工作，消费者方面的公平可能很重要。一些类型的重新排序算法，例如[10]，已经被用于这种设置，我们打算探索这里的发现是否也转化为消费者方面的公平。
对于联合优化问题，进一步探索组合目标函数的组合可能是值得的。10%是较低的精度成本，但对于某些应用程序的价值较小。我们对Kiva的一些初步研究表明，对于它们的应用，阈值可能更高。我们也对探索联合目标的替代公式感兴趣，例如乘法公式。
很明显，我们在这里的工作只调查了可用算法的一小部分，包括用于推荐生成和基于公平意识的重新排序。在我们未来的工作中，我们计划扩大我们的研究范围，在每个类别中包括其他的算法。利用神经模型研究推荐算法的公平性的研究很少，这些将是未来研究的明显目标。
我们还注意到，重新排名并不是获得公平意识推荐的唯一途径，而且有相当多的文献表明，将公平目标纳入推荐模型本身。本文提出的研究的一个自然扩展是探索这种模型是否可以被优化，以提供比两阶段重新排序管道更好的公平性和准确性的组合。这个问题在文献中没有得到彻底的探索，因为大多数研究人员集中在一种或另一种方法。将这种具有公平意识的推荐模型与重新排序相结合，是另一种需要考虑的方法。在这样的管道中的联合优化可能使受保护的项目放置到第一轮的结果中，以便reranker有更好的项目可供选择。