最新综述 | 图数据挖掘中的算法公平性

本文综述了图数据挖掘中算法公平性的定义,如集体公平性、个人公平性、反事实公平性等,并探讨了提升公平性的方法,包括正则化、约束优化、再平衡等。论文指出,图数据挖掘算法的公平性在推荐系统、知识图谱等领域的重要性,提出了未来的研究方向。
摘要由CSDN通过智能技术生成

嘿,记得给“机器学习与推荐算法”添加星标


作者:董钰舜

单位:弗吉尼亚大学

图数据挖掘算法已经在很多领域得到应用,但大多数图数据挖掘算法都没有考虑到算法的公平性。在本篇综述中,我们首先系统梳理了图数据挖掘领域内常见的算法公平性的定义和对应的量化指标。在此基础上,我们总结出了一个图数据挖掘算法公平性的分类法,并对现有提升公平性的方法进行了讨论。最后,我们整理了可以用于图数据挖掘中算法公平性研究的数据集,也指出了现有的挑战和未来的工作方向。

b57c30f34c5b8b0db5c9a950a141d0ed.png

论文链接:https://arxiv.org/abs/2204.09888

图数据在现实世界的应用中扮演了重要角色。然而,现今的图数据挖掘算法在结果的公平性上可能存在诸多隐患。比如,现有研究已经证明,真实世界的图数据可能包括不同的偏见,而图神经网络(Graph Neural Networks,一类流行的图数据挖掘模型)可能在训练过程中学习到这类偏见,并在作出预测时进一步将其放大[1]。因此,如何使当前的图数据挖掘算法产生尽可能公平的预测以辅助人们决策成为了一个关键的问题。

在不同的工作中,算法公平性的定义可能是不同的。同时,提升算法公平性的方法也与公平性的定义相互耦合。如果没有系统地认识每一类公平性和对应的提升方法,研究者和工程师们很难针对一类图数据挖掘算法的公平性问题找到有效的解决方案。这很大程度上阻碍了这些提升算法公平性的方法在真实场景中的应用。为了解决这个矛盾,我们在本篇综述[2]中总结了常见的算法公平性的定义以及对应的量化指标。为了帮助研究者系统地认识现有方法,我们也对常用的实现图数据挖掘公平性的方法进行了分类和详细介绍。我们还汇总了可供图数据挖掘公平性研究的数据集,并指出了现有的挑战和未来的方向。

1. 图数据挖掘中算法公平性的定义

5bf26a742641195e5fd6294942de7450.png

图1. 图数据挖掘中算法公平性的定义分类

1.1 集体公平性

在一些围绕人(如电子商务平台的用户)的图数据挖掘场景中,数据中的信息可能会包含人的敏感特征(sensitive a

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
算法决策越来越普遍,也越来越有争议。 批评者担心算法工具不透明、不负责任或不公平。 评估这些工具的公平性尤其令人担忧,因为它要求我们就公平是什么以及它意味着什么达成一致。 不幸的是,我们没有。 技术文献现在充斥着多种衡量标准,每个衡量标准都声称要评估某个维度的公平性。 两种措施脱颖而出。 有人认为,算法公平性要求算法产生的分数对于受法律保护的群体(例如黑人和白人)的成员应该同样准确。 另一种说法是,算法公平性要求算法为每个相关组产生相同百分比的误报或漏报。 不幸的是,通常无法在这两个维度上实现平等。 这一事实导致了一个紧迫的问题。 我们应该优先考虑哪种类型的衡量标准以及为什么?本文对如何最好地衡量算法公平性的辩论做出了三项贡献:一种是概念性的,一种是规范性的,一种是法律性的。 相同的预测准确度可确保得分对每个相关组的意义相同。 因此,它与一个人应该相信一个得分个体有关。 由于公平问题通常与行动而非信念相关,因此这种衡量标准不适合作为衡量公平的标准。 这是本文的概念性贡献。 其次,本文认为假阳性与假阴性比率的均等是一个规范上重要的衡量标准。 虽然在这个维度上缺乏平等并不构成不公平,但这一衡量标准提供了怀疑不公平存在的重要理由。 这是本条的规范性贡献。 有趣的是,提高算法的整体准确性将减少这种不公平。 不幸的是,反歧视法禁止在所有情况下使用种族和其他受保护分类的普遍假设正在阻止设计算法的人使它们尽可能公平和准确。 这篇文章的第三个贡献是表明法律构成的障碍比许多人想象的要小。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值