论文阅读 | Responsible Data Management

这篇文章出自 COMMUNICATIONS OF ACM,因为读完之后深受启发和警醒,所以想好好

整理之后分享出来。对于文章的整理于翻译可能存在不足,也希望能和大家多多进行讨论。文章链接:Responsible Data Management | June 2022 | Communications of the ACM

目录

摘要与关键见解

Example: 自动化招聘系统(Automated hiring systems)

为什么要对数据管理负责

All About That Bias

Preexisting bias

Technical bias

数据清洗

筛选

预训练的词嵌入

排名

Emergent bias

管理 ADS 的数据生命周期

数据获取

数据预处理

数据分布的 debugging

Overseeing ADS

对一系列利益相关者的可解释性

删除个人数据


摘要与关键见解

在数据驱动的算法系统中纳入对道德和法律法规的考虑已经引起了计算机学界的极大关注,但大部分工作仅限于数据分析的“最后一英里”,并且忽略了系统的设计、开发和使用生命周期数据生命周期。本文的主要见解如下:

  1. 对于所有的数据密集型系统,需要在数据收集、分析和使用的全周期中考虑包含道德和法律在内的Responsible data management,无论这些系统包含机器学习或AI与否;
  2. 在数据收集和预处理阶段中所做的决定会对数据密集型系统的鲁棒性、公平性和可解释性产生极其显著的影响。因此,需要在系统的更早生命周期阶段中去提高数据质量、控制bias,以及在系统的运行中加入人的监督
  3. 数据本身并不能充分辨别它是完美世界的扭曲反映还是一个扭曲世界的完美反映,或者两者都有。因此必须明确说明假设或外部验证的扭曲,以使我们能够决定是否以及如何减轻其影响。

Example: 自动化招聘系统(Automated hiring systems)

在内容正式开始之前,文章首先列举了一个自动决策系统 (automated decision systems, ADS)的例子:自动化招聘系统。自动化招聘系统在招聘中的用途越来越广泛,并且与招聘本身一样存在着多样性。例如从识别有潜力的求职者的简历筛选器到便于面试的视频和语音分析工具,再到发掘应聘者潜力的基于游戏的评估等,都是自动化招聘系统的应用。

Figure 1 Bogen和Rieke从雇主的角度将招聘过程描述为形成漏斗的一系列决策,对应于sourcing, screening, interviewing, and selection

目前,各国对ADSs的定义还没有达成共识,大家都考虑的因素有:决策中的人的自由裁量权程度、影响程度以及所涉及的具体技术。基于之前提到的自动化招聘系统实例以及其他自动决策系统的例子,文章提出了ADSs的语用定义:

  • 它们处理关于人的数据,其中的一些数据可能是敏感的或专有的
  • 它们帮助做出对人民生活和生计有重大影响的决定
  • 它们涉及人工和自动化决策的结合
  • 它们旨在提高效率,并在适用的情况下促进获得机会的公平性

在这个定义中,文章有意将重心放在最终决策责任是由人承担的系统,而不是完全自主的系统。例如,广告系统是ADS,虽然他们可以自主运行,但他们的运营条件是通过平台提供商和广告商之间的协商来规定和审查的。此外,精算模型、音乐推荐系统和健康筛查工具都是ADS。

为什么要对数据管理负责

在数据收集和分析的生命周期内放置辅助决策的技术组件(电子表格公式、匹配算法或预测分析)对于定义 ADS 至关重要。这反过来又要求data management community在这些系统的负责任设计、开发、使用和监督中产生真正的实际影响。

因为不论自动化决策系统是否使用AI,在运行时是否高度自治,都严重依赖数据。因此接下来本文会先解释术语“Bias”。然后,我们将讨论ADS监管和将责任嵌入ADS生命周期管理的数据管理相关挑战,指出了研究新的具体方向。

All About That Bias

计算机系统中可能出现三种类型的偏差有:Preexisting bias, Technical bias和Emergent bias

Preexisting bias

Preexisting bias源于社会,而在数据科学应用中,它表现在输入数据中。检测和缓解预先存在的偏差是算法公平性下许多研究的主题。但重要的是,这类偏见的存在与否无法得到科学验证;相反,它必须基于一个信念系统(Belif System)进行假设。因此,减轻预先存在的偏见的技术尝试的有效性是建立在信念系统的

为了解释Preexisting bias和技术干预的限制(如数据删除),文章列举了一个镜像反射例子来帮助理解。

Figure 2. Data as a mirror reflection of the world, illustrated by Falaah Arif Khan.

数据是世界的一种反射。当我们考虑数据中预先存在的偏差时,我们就会质疑这种通常是扭曲的反射。反射扭曲一个可能的原因是反射镜(the measurement process)引入了这种扭曲。它可能真实地反映了世界的某些部分,但也可能同时放大或缩小其他部分。另一种可能性是,即使是一面完美的镜子也只能反映一个扭曲的世界,也就是说真实的世界就是扭曲的

基于这个镜子的比喻,我们可以得到一些简单但重要的看法:

  • 首先,仅基于反射,而不了解镜子及其反射的世界的属性,我们无法知道反射是否扭曲失真,以及扭曲的原因。也就是说,数据本身无法告诉我们它是完美世界的扭曲反映,还是扭曲世界的完美反映,或者二者都有。必须明确说明扭曲的假设或外部验证性质,以便我们决定是否以及如何减轻其影响;
  • 其次,对于世界是否应该如此,是否需要改进,以及我们应该如何改进,这取决于个人、团体和整个社会,而不是数据或算法;
  • 最后,如果数据被用来做出重要的决定,比如雇佣谁和提供什么样的薪水,那么补偿这种数据中存在的扭曲失真是值得的。

此外,文章还举了一个Preexisting bias的例子: SAT分数。

在学生申请中,会使用申请人的SAT分数进行筛选。 据研究表明,SAT数学部分的平均分数以及分数分布的形状因人种而异。 如果我们认为标准化考试成绩会受到之前接受的教育的影响,那么这个分数本身更多地是反映了社会经济状况而不是个人的学术潜力,那么我们会认为数据存在偏差。

因此,在使用这个SAT分数分布差异的特征之前,需要寻求矫正偏见的方法,例如,通过选择每个种族群体中表现最好的个体,或者根据我们对于偏见的认知,设计更加复杂和公平的排名方法,又或者,我们可以完全忽略这个特征。

Technical bias

技术偏差,尤其是由于数据密集型流水线中的预处理决策或部署后的问题引起的偏差,它是由于技术系统本身的运行而产生的,可能会放大先前存在的偏差。但迄今为止,在诊断和缓解技术方面受到的关注有限。下文列举了一些与数据管理相关的潜在技术偏差来源示例

数据清洗

  • 如果在缺失值填充中,缺失的值本身不是随机缺失而冒然填充的话,将会扭曲原本正确的分组比例。也就是说,数据质量问题通常不成比例地影响过去处于不利地位的群体成员。

    e.g., 在填写性别时,性别只有两个选项(男,女),但是填写者可以忽略性别问题,而没有填写性别的大部分为女性。但是在缺失值填充中,如果默认这个信息缺失是随机的话,大多数的scikit-learn或者缺失值填充算法就会将大部分的缺失值填充为男性,从而使得填充后的数据分组比例更加扭曲

  • 文本规范化 (例如小写、拼写更正或词干提取): 这些操作可以看作是一种聚合形式,实际上是在同一表示下折叠具有不同含义的术语

    e.g.,将人名“Iris”小写为“iris”将使其与花名或虹膜无法区分

筛选

选择和连接也通常用作数据预处理的一部分,这些操作即使不直接使用敏感属性(例如,性别)作为predicate或者join key的一部分,也可以任意改变受保护组的比例(例如,女性性别)。这些比例的改变可能是不经意间的,但是检测出这些改变却很重要,尤其是在ADS流水线上作为许多预处理步骤之一时更是如此。

  • e.g., 选择邮政编码为 10065(曼哈顿上东区最富裕的地区之一)的个体可能会使数据中的人种分布数据存在偏差
  • e.g., .将患者人口统计数据与临床记录相结合可能会导致年龄偏斜,因为具有匹配临床记录的年轻人较少。

预训练的词嵌入

e.g., 在一个 pipeline 中,可能会用来自单词嵌入的相应向量替换文本名称特征,如果该向量对于罕见的非西方名称来说是缺失的,且我们随后选择过滤掉没有找到嵌入的记录的话,我们可能会不成比例地从特定种族群体中删除一些个体

排名

e.g,. 固有的位置偏差——与较高等级的项目相比,较低等级的项目的可见性几何下降。

这个问题可以通过适当地随机化排名、显示平局结果或绘制分数分布来解决

Emergent bias

Emergent bias指的是系统直接控制之外的 ADS 的影响,特别难检测和减轻。

  • e.g., 在电子商务中的 Web 排名和推荐中,一个突出的例子是“rich-get-richer”,搜索者倾向于相信系统会在页面顶部向他们展示最合适的项目,这反过来又会塑造搜索者对满意答案的想法
  • e.g.,招聘和就业:如果招聘经理信任来自 ADS 的建议,并且如果这些建议系统地优先考虑具有特定人口特征的申请人,那么这将创建一个反馈循环,随着时间的推移进一步减少劳动力的多样性。

管理 ADS 的数据生命周期

由于自动决策系统ADS严重依赖数据,所以应该从数据生命周期的角度来看待ADS的责任问题和重要决策点,例如在数据共享、注释、获取、管理、清理和集成中进行考虑。


数据获取

在数据获取中如果存在偏差,将会极大地影响数据有关的系统设计和应用。

值得注意的是,这里的问题不仅在于某些少数群体的代表性不足,还在于某些群体的绝对代表性偏低

e.g,. 训练集中只有 0.2% 的美洲原住民也是一个问题,即使这代表了他们在人口中的比例。 如此低的数字可能导致美国原住民被 ADS 认定为一个小的“异常”群体而被忽视。

对于这个问题的解决,The proposed answer is to direct them to acquire more data, in a way that is cognizant of the cost of data acquisition.

数据预处理

即使获得的数据满足代表性要求,它仍可能受到预先存在的偏见的影响,例如使用intersectionally fair ranking。使用这种交叉性排名的动机是,可以对每个敏感属性(例如种族和性别)表面表现出公平,但这对交叉后的子群体则不公平。

e.g., 使得每个性别子群体(例如,男性和女性)和每个种族子群体(例如,黑人和白人)的成一定比例,但是此时对于由两种属性的交集定义的子群体(例如,黑人女性)仍然没有足够的代表性

对于这个问题的解决,Yang等人方法的要点。是使用因果模型来计算基于模型的反事实,回答以下问题:“如果她是黑人女性,这个人的得分是多少?” 然后对反事实分数进行排名以实现交叉公平。Yang, K., Loftus, J., and Stoyanovich, J. Causal intersectionality and fair ranking. K. Ligett and S. Gupta, editors. In 2nd Symposium on Foundations of Responsible Computing, Volume 192 of LIPICS, Schloss Dagstuhl–Leibniz Center for Informatics (June 2021), 7:1–7:20.

数据分布的 debugging

数据分布的变化可能在数据预处理期间出现并影响下游机器学习模型的性能。对于这个问题,Grafberger等人设计并实现了mlinspect,这是一个轻量级的数据分布debugger,支持对数据密集型pipline的自动检查,以检测意外引入的统计偏差和寻找出最佳的分布实践。(Grafberger, S., Stoyanovich, J., and Schelter, S. Lightweight inspection of data preprocessing in native machine learning pipelines. In 11th Conf. on Innovative Data Sys. Research, Online Proceedings (January 2021), http://www.cidrdb.org)

Overseeing ADS

关于如何看待ADS,首先文章介绍了General Data Protection Regulation (GDPR)。GDPR由欧盟提出,是迄今为止专注于数据权利和数据驱动的决策中最重要的技术法规,也是监督数据收集和使用的“共同标准”。它旨在让数据主体深入了解并控制其个人数据的收集和处理,为个人提供了有关其个人数据的收集、处理和移动的保护,并广泛适用于政府和私营部门实体对此类数据的使用。文章接下来着重讨论了GDPR中的一些关键点。

对一系列利益相关者的可解释性

本文提倡不把ADS 监督作为一个纯粹的技术解决方案,而是希望多方利息相关者能够参与到ADS的设计、开发和监督中。因此,对一系列利益相关者的可解释性尤为重要,需要让人们了解 ADS 的流程和决策,并通过接受或质疑算法决策来行使代理权,并且在存在决策者的情况下对这些决策负责。这其中的关键在于明确代码和数据如何交互。

删除个人数据

被遗忘权最初是出于个人希望不被他们过去所做的事情永远污名化的愿望。因此删除个人数据成为了欧盟GDPR的一部分。删除个人数据指的是数据主体有权要求及时删除其个人数据。需要注意的是:

  • 这种删除必须是永久的和深度的,以避免其影响通过数据依赖传播
  • 与数据管理社区明确相关的一个重要技术问题是删除用于积累数据的系统中的信息,这需要对最初的喜人进行大量的重新思考和重新设计,例如通过有效的删除操作增强基本数据结构


最后,由于本文的关键点已在摘要中列出,所以不再整理文章的总结部分。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值