2.Zafar 学习过程公平的案例:公平决策的特征选择

2.Zafar 学习过程公平的案例:公平决策的特征选择

这篇文章是机器学习公平性领域的文章,其英文名为《The Case for Process Fairness in Learning: Feature Selection for Fair Decision Making》。早期关于公平的工作主要集中于在不使用敏感特征(例如性别,种族)的情况下实现较高的决策准确性,而在本文中,作者通过研究人们认为每个特征(敏感或不敏感)不公平的程度,以及删除这些特征的组合将如何影响结果的公平性和准确性,提出了超越当前法律规范的更广泛的公平概念,即过程公平。

概述

本文的主要工作有:
一、定义了三种不同的过程公平性度量。
二、展示了如何使用公共COMPAS ProPublica数据集在累犯风险估计的背景下实施这些过程公平性定义。收集了用户对特征的偏好的排名列表,能够探索过程公平性的度量。
三、当使用这些特征的不同子集时,作者提供了准确性和不同公平度量之间的权衡的初步分析,为将来的工作开发了几种途径。

详述

一、定义三种过程公平性度量

(一)特征-先验公平性

对于给定的特征f∈F,令Uf⊆U表示所有认为该特征f公平使用的用户集合,而无需使用它如何影响结果的先验知识。给定一组特征F’,令CF’表示使用这些特征F’的分类器。则定义
在这里插入图片描述

(二)特征-准确度公平性

令UfAcc⊆U表示如果特征f可以提高分类器的准确性,则认为特征f是公平的所有用户的集合。通常期望Uf⊆UfAcc ,尽管这不一定总是完全成立(由于估计用户偏好时出现偏差,或者由于某些用户在准确性概念上附加了某种否定性含义)。给定一组特征F’,让CF’表示使用这些特征F’的分类器,让Acc(CF’)表示其准确性。 则定义
在这里插入图片描述

注释1:集合Uf \ UfAcc由那些特殊的用户组成,他们认为只有在不增加分类器准确性的情况下,才可以使用该特征。因此,这些用户可能被认为是异常值,应将其排除在外(尽管我们在此处包括了它们)。在我们所有的调查问题中,只有不到5%的用户是这种方式。

(三)特征-差异公平性

令UfDisp⊆U表示即使特征f增加了分类器之间的差异(即区别对待),还认为特征f可以公平使用的所有用户的集合。通常,我们期望UfDisp⊆Uf,尽管由于估计误差或其他原因,不一定总是严格要求。给定一组特征F’,让CF’表示使用这些特征F’的分类器,并让Disp(CF’)表示它引起的差异。则定义
在这里插入图片描述

注释2:集合UfDisp\U由特殊用户组成,他们认为只有在增加分类器差异的情况下,才可以使用某个特征。对于我们所有的调查问题,只有不到5%的用户是这种方式。

二、度量过程公平

(一)数据集介绍

本文使用ProPublica COMPAS数据集并构建分类任务,目标是预测刑事被告是否会再次犯罪。该数据集由2013年至2014年在佛罗里达州Broward县接受COMPAS筛查的所有刑事被告组成,我们仅对可用于预测被告再犯风险的特征感兴趣。作者使用特征子集进行分析,最终得到9个可用于构造累犯预测分类器的特征如下:逮捕指控说明(例如,盗窃,藏有毒品),指控程度(轻罪或重罪),先前的刑事犯罪数量,少年重罪犯罪,少年轻罪犯罪,其他少年犯罪,被告年龄 ,被告的性别和被告的种族。

(二)调查问题设置

作者招募了100名在Amazon Mechanical Turk(AMT)平台上享有声誉的美国主管工人。然后向每个AMT工作人员显示了上述九个特征,并且针对每个特征,向他们询问以下问题:
问题1:您认为在估算犯罪者累犯风险时使用有关此特征的信息是公平还是不公平?
问题2:您认为在估算犯罪者累犯风险时,如果使用该特征会使估算更加准确,那么使用有关此特征是公平还是不公平?
问题3:您认为在估算犯罪者的再犯风险时,如果使用此特征会使黑人比白人更容易被认定为再犯风险,那么该特征是公平还是不公平?

对于每个特征,作者计算了根据问题Q.1、2和3,认为该特征是公平的AMT工作人员所占的比例。总体结果如下表所示。
在这里插入图片描述

根据该表分析如下:
首先,当被问到某个特征的先验公平性(问题1)时,判断每个特征是否公平的AMT工作人员比例在各个特征之间差异很大。几乎所有工人都认为与犯罪历史和当前犯罪有关的特征是公平的。但少数人认为与青少年犯罪有关的特征公平,大多数工人认为受保护属性年龄,性别和种族特征是不公平的。
其次,关于在已知某特征的使用会导致预测准确性提高的情况下判断特征公平性(问题2),与Q.1相比,认为该特征公平的工人比例几乎都有所提高(先前的犯罪次数除外)。
第三,当某个特征被发现会增加结果的种族差异时,认为该特征公平的工人比例明显低于前两种情况。 最后,在问题1、2和3中特征相对排名保持不变。

(三)根据不同特征组合构造分类器判断过程公平性

由于数据集具有9个特征,因此可以使用特征的所有可能子集来训练29=512个不同的分类器。对于每个分类器,作者计算了准确性和结果公平性。然后针对过程公平性的三种量度,介绍空分类器(无特征)具有最高准确性的分类器和最公平的分类器。对于每种分类器,预测准确性以及过程公平性的三个度量如下表所示。
在这里插入图片描述

根据该表分析如下:
空分类器用作基线,达到56%的准确性。
最准确的分类器可达到68.1%的准确性,但这三种类型的过程公平性很低。
最公平的分类器是使用“先前犯罪数量”的分类器。 即使此分类器仅使用一个特征,也具有最高的特征公平性和63.0%的适度准确性。

三、过程公平性的代价:结果公平性和准确性

消除不希望有的特征可以提高过程公平性的同时,也可能导致准确性降低或结果公平性降低。

(一)过程公平性和准确性的权衡

作者展示了512个分类器针对三个公平性的准确性,如图所示:
在这里插入图片描述

根据该图分析如下:
首先,非常低的过程公平性值几乎可以实现所有可能的精度值(所有三个图的左侧都是垂直扩展的簇)。经过进一步调查,作者发现,当被判定为高度不公平的特征(性别、种族和年龄)出现在分类器特征集中时,这些聚类对应于分类器。
另一方面,三个数字的右端(对应于过程公平性高且大于0.90的情况)对应于三个特征(性别,种族和年龄)被认为高度不公平的情况在相应分类器的特征集中不存在。这种分类器实现的最大准确性为64.5%,比最佳分类器的准确性(68.1%)略低。
我们的发现表明,要在过程公平性和准确性之间进行权衡,要实现较高的过程公平性,我们需要从分类器中删除某些特征,从而导致准确性下降。可以实现高精度或高过程公平性,但不能同时实现。

(二)过程公平性、结果公平性和准确性的权衡

作者研究过程公平与结果公平之间的权衡。 受ProPublica数据集的启发,作者根据白人(w)和非白人(nw)误分类率的差异来定义结果公平性的度量标准。具体来说,我们首先定义一个度量结果公平的方式如下:
在这里插入图片描述

在这里插入图片描述
反正例率(误报率) FPR = FP / (FP + TN)
表示,被挑出来的(预测是“正”的),但错误的(预测值!=真实值)的,占总的预测错误的比率。
真正例率 TPR = TP / (TP + TN)
表示,被挑出来的(预测是“正”的),且正确的(预测值=真实值)的,占总的预测正确的比率。

作者计算了512个分类器中每个分类器的结果公平性值,并将它们与相应的过程公平性值进行了比较( 每个点的颜色强度代表相应分类器的准确性)。 如图所示:
在这里插入图片描述
根据该图分析如下:
比较图(a),(b)和©,它们对应于过程公平性的不同概念:图(a)左侧的长垂直簇(低特征先验公平性)在图(b)中分裂成两个长的垂直子簇(特征准确度公平)。这些子类可以通过以下事实来解释:对于AMT工作人员最初认为某些不公平的特征,如果这些特征导致准确性提高,则被认为是公平的,因此增加了特征准确性的公平性。 图(a)和图©在质量上非常相似,但图©比图(a)过程公平性值低。 可以通过特征-差异公平性(判断为使用特征会导致更大的视差来判断)始终低于特征-先验公平性(在不了解特征使用会如何影响视差的情况下进行判断)来解释。
接下来,我们看到许多高精度的点聚集在三个图的左上角。 这些点对应于实现高结果公平性但低过程公平性的分类器。这些是包括使用年龄,少年轻罪计数,少年其他计数,先验计数,种族和性别的分类器,在所有分类器中均达到最佳准确性(68.1%),同时实现较高的结果公平性(0.23)。该分类器的过程公平性度量分别为0.12、0.34和0.08,这表明该方法同时实现高精度和高结果公平性,而代价却是低过程公平性。
所有图的最右上角的紫色点对应于不使用任何特征的零分类器,因此可以实现完美的过程和结果公平性。 但是这个分类器在预测累犯方面没有提供足够的信息。 在所有图中,低于该点的点均实现了很高的过程和结果公平性值,同时保留了63.0%的中等准确性(与之相比,零分类器准确性为56%,最佳分类器准确性为68.1%)。 这一点对应于仅使用“先前的刑事犯罪数量”特征的分类器。该观察结果表明,同时实现较高的过程公平性和较高的结果公平性是以牺牲准确性为代价的。

四、总结

先前的工作集中于探索结果公平性的度量,即如何避免区别对待,但作者引入了三种过程公平性的量化度量,展示了如何在重要的法律中获得这些措施。 在探索准确性和公平性之间的权衡时,早期的一个令人兴奋的工作结论似乎是在实际情况下,只需很小的准确性成本就可以实现结果公平。相比之下,作者对ProPublica COMPAS数据集的实证分析表明,要实现过程公平性,必须损失更大量的准确性。 在以后的工作中还要进一步探讨过程公平性,结果公平性和准确性之间的权衡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值