嘿,记得给“机器学习与推荐算法”添加星标
作者:董钰舜
单位:弗吉尼亚大学
图数据挖掘算法已经在很多领域得到应用,但大多数图数据挖掘算法都没有考虑到算法的公平性。在本篇综述中,我们首先系统梳理了图数据挖掘领域内常见的算法公平性的定义和对应的量化指标。在此基础上,我们总结出了一个图数据挖掘算法公平性的分类法,并对现有提升公平性的方法进行了讨论。最后,我们整理了可以用于图数据挖掘中算法公平性研究的数据集,也指出了现有的挑战和未来的工作方向。
论文链接:https://arxiv.org/abs/2204.09888
图数据在现实世界的应用中扮演了重要角色。然而,现今的图数据挖掘算法在结果的公平性上可能存在诸多隐患。比如,现有研究已经证明,真实世界的图数据可能包括不同的偏见,而图神经网络(Graph Neural Networks,一类流行的图数据挖掘模型)可能在训练过程中学习到这类偏见,并在作出预测时进一步将其放大[1]。因此,如何使当前的图数据挖掘算法产生尽可能公平的预测以辅助人们决策成为了一个关键的问题。
在不同的工作中,算法公平性的定义可能是不同的。同时,提升算法公平性的方法也与公平性的定义相互耦合。如果没有系统地认识每一类公平性和对应的提升方法,研究者和工程师们很难针对一类图数据挖掘算法的公平性问题找到有效的解决方案。这很大程度上阻碍了这些提升算法公平性的方法在真实场景中的应用。为了解决这个矛盾,我们在本篇综述[2]中总结了常见的算法公平性的定义以及对应的量化指标。为了帮助研究者系统地认识现有方法,我们也对常用的实现图数据挖掘公平性的方法进行了分类和详细介绍。我们还汇总了可供图数据挖掘公平性研究的数据集,并指出了现有的挑战和未来的方向。
1. 图数据挖掘中算法公平性的定义
图1. 图数据挖掘中算法公平性的定义分类
1.1 集体公平性
在一些围绕人(如电子商务平台的用户)的图数据挖掘场景中,数据中的信息可能会包含人的敏感特征(sensitive a