3.Zafar 公平约束:公平分类的机制
这篇文章属机器学习公平性领域,其英文名为《Fairness Constraints: Mechanisms for Fair Classifification 》。在本文中作者引入了一种新的度量决策边界公平性的方法,能够确保对一个或多个敏感属性的公平性。并推导出两个互补的公式:一个在公平约束下最大化准确性,并帮助确保遵守非歧视政策或法律;另一个是在精确度约束下最大化公平性,并确保满足某些业务需求。
概述
本文的主要工作有:
引入了一种新的度量决策边界公平性的方法,它使我们能够在不同的处理和不同的影响方面,确保对一个或多个敏感属性的公平性。我们利用这一措施推导出两个互补的公式:一个在公平约束下最大化准确性,并帮助确保遵守非歧视政策或法律(例如,给定的p%-规则);另一个是在精确度约束下最大化公平性,并确保满足某些业务需求(例如,异源影响的业务必要性条款)。
详述
一、分类公平性介绍
(一)决策边界的定义
在二值分类任务中,需要找到用户特征向量x∈Rd与类标签y∈{−1,1}之间的映射函数f(x)。寻找这种映射通常简化为在特征空间中建立一个决策边界,该边界将训练集中的用户根据其类标签进行划分。通常通过最小化训练集L(θ)上的一个损失函数来达到测试集上最大的分类精度,即θ∗ = argminθ L(θ)。然后,给定一个测试集的特征向量xi,如果dθ∗ (xi) ≥ 0则fθ (xi)= 1,否则fθ (xi)= -1,其中dθ∗ (xi)表示从特征向量x到决策边界的有符号距离。
(二)公平性的定义
1、p%规则
决策边界满足“80%规则”(或者更普遍的“p%规则”),即具有某一特定敏感属性值dθ(x)≥0的用户百分比与不具有该属性值dθ(x)≥0的用户百分比之比不小于80:100 (p:100)。对于给定的二进制敏感属性z∈{0,1},可以将p%-规则写成: