最新综述 | 图数据挖掘中的算法公平性

嘿,记得给“机器学习与推荐算法”添加星标


作者:董钰舜

单位:弗吉尼亚大学

图数据挖掘算法已经在很多领域得到应用,但大多数图数据挖掘算法都没有考虑到算法的公平性。在本篇综述中,我们首先系统梳理了图数据挖掘领域内常见的算法公平性的定义和对应的量化指标。在此基础上,我们总结出了一个图数据挖掘算法公平性的分类法,并对现有提升公平性的方法进行了讨论。最后,我们整理了可以用于图数据挖掘中算法公平性研究的数据集,也指出了现有的挑战和未来的工作方向。

b57c30f34c5b8b0db5c9a950a141d0ed.png

论文链接:https://arxiv.org/abs/2204.09888

图数据在现实世界的应用中扮演了重要角色。然而,现今的图数据挖掘算法在结果的公平性上可能存在诸多隐患。比如,现有研究已经证明,真实世界的图数据可能包括不同的偏见,而图神经网络(Graph Neural Networks,一类流行的图数据挖掘模型)可能在训练过程中学习到这类偏见,并在作出预测时进一步将其放大[1]。因此,如何使当前的图数据挖掘算法产生尽可能公平的预测以辅助人们决策成为了一个关键的问题。

在不同的工作中,算法公平性的定义可能是不同的。同时,提升算法公平性的方法也与公平性的定义相互耦合。如果没有系统地认识每一类公平性和对应的提升方法,研究者和工程师们很难针对一类图数据挖掘算法的公平性问题找到有效的解决方案。这很大程度上阻碍了这些提升算法公平性的方法在真实场景中的应用。为了解决这个矛盾,我们在本篇综述[2]中总结了常见的算法公平性的定义以及对应的量化指标。为了帮助研究者系统地认识现有方法,我们也对常用的实现图数据挖掘公平性的方法进行了分类和详细介绍。我们还汇总了可供图数据挖掘公平性研究的数据集,并指出了现有的挑战和未来的方向。

1. 图数据挖掘中算法公平性的定义

5bf26a742641195e5fd6294942de7450.png

图1. 图数据挖掘中算法公平性的定义分类

1.1 集体公平性

在一些围绕人(如电子商务平台的用户)的图数据挖掘场景中,数据中的信息可能会包含人的敏感特征(sensitive a

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
算法决策越来越普遍,也越来越有争议。 批评者担心算法工具不透明、不负责任或不公平。 评估这些工具的公平性尤其令人担忧,因为它要求我们就公平是什么以及它意味着什么达成一致。 不幸的是,我们没有。 技术文献现在充斥着多种衡量标准,每个衡量标准都声称要评估某个维度的公平性。 两种措施脱颖而出。 有人认为,算法公平性要求算法产生的分数对于受法律保护的群体(例如黑人和白人)的成员应该同样准确。 另一种说法是,算法公平性要求算法为每个相关组产生相同百分比的误报或漏报。 不幸的是,通常无法在这两个维度上实现平等。 这一事实导致了一个紧迫的问题。 我们应该优先考虑哪种类型的衡量标准以及为什么?本文对如何最好地衡量算法公平性的辩论做出了三项贡献:一种是概念性的,一种是规范性的,一种是法律性的。 相同的预测准确度可确保得分对每个相关组的意义相同。 因此,它与一个人应该相信一个得分个体有关。 由于公平问题通常与行动而非信念相关,因此这种衡量标准不适合作为衡量公平的标准。 这是本文的概念性贡献。 其次,本文认为假阳性与假阴性比率的均等是一个规范上重要的衡量标准。 虽然在这个维度上缺乏平等并不构成不公平,但这一衡量标准提供了怀疑不公平存在的重要理由。 这是本条的规范性贡献。 有趣的是,提高算法的整体准确性将减少这种不公平。 不幸的是,反歧视法禁止在所有情况下使用种族和其他受保护分类的普遍假设正在阻止设计算法的人使它们尽可能公平和准确。 这篇文章的第三个贡献是表明法律构成的障碍比许多人想象的要小。
关于使用计算机做出决定——从招聘到贷款批准再到设定刑期——影响人类的担忧激增。 许多人指出,使用计算机程序为决策提供信息可能会导致偏见的传播或以其他方式导致不良结果。 许多人呼吁提高透明度,而其他人则呼吁调整算法以产生更加种族平衡的结果。 随着计算机在我们的日常生活做出越来越重要和复杂的决定,这个问题可能会引起越来越多的关注。 本文借鉴了关于算法公平性的计算机科学和法律文献,对辩论做出了四个主要贡献:首先,它通过证明法律规则通常适用于算法决策者,对将“公平”纳入算法决策者的论点提供了法律回应。边约束,而不是可以优化的公平函数。 其次,通过从歧视法的角度看待这个问题,本文认识到计算决策者提出的问题与歧视法已经演变为控制的历史性、制度性歧视非常相似,这是对这个问题真正新颖的说法的回应因为它涉及计算机化的决策。 第三,该论文通过展示透明度对于提供问责制是不必要的,以及歧视法本身为如何处理不公平的算法歧视案件提供了一个模型,无论是否具有透明度,以此响应对计算决策透明度的呼吁。 第四,本文解决了一个在该主题上存在分歧的问题:如何纠正算法产生的歧视性结果。 我没有将问题视为二元问题,而是提供第三种方法,将纠正算法决策者的过程分解为两个单独的决策:拒绝旧过程的决定和采用新过程的单独决定。 这两项决定受不同法律要求的约束,为寻求避免最坏类型歧视结果的公司和机构提供了更大的灵活性。 最后,当前的歧视法为可能与“公平”相关的各种主张提供了大部分答案出现在计算决策者的背景下,而不管他们背后的具体技术如何。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值