BiasFinder: Metamorphic Test Generation to Uncover Bias for Sentiment Analysis Systems阅读

BiasFinder: Metamorphic Test Generation to Uncover Bias for Sentiment Analysis Systems
 
人工智能(AI)软件系统,如情感分析(SA)系统,通常会从大量可能反映人类偏见的数据中学习。因此,这些软件系统中的机器学习模型可能会根据特定的特征(如性别、职业、原籍国等)表现出非预期的人口统计学偏见。当SA系统预测相似文本的不同情绪时,这种偏见就会显现出来,而相似文本仅在描述的个体特征上有所不同。现有的关于SA系统中揭示偏见的研究依赖于从一小组预定义的短模板中生成句子。为了解决这个限制,我们提出了偏置发现者,一种通过变形测试在SA系统中发现偏置预测的方法。BiasFinder的一个关键特性是基于大型语料库中的文本片段自动管理合适的模板,使用各种自然语言处理(NLP)技术来识别描述人口统计学特征的单词。接下来,BiasFinder通过在占位符中填充与某类特征相关的词(例如,性别特定的词,如女性名字,she, her)来实例化这些模板中的新文本。这些文本被用来梳理出SA系统中的偏见。BiasFinder识别bias-uncovering测试用例时检测到SA系统展品人口偏见一双文本,也就是说,它预测不同的情绪只有在不同单词的文本关联到一个不同的类(例如,男性和女性)的目标特征(例如,性别)。我们的实证评估表明,BiasFinder可以有效地创建大量真实和多样的测试案例,揭示SA系统中的各种偏差,真实阳性率高达95.8%。
 
 

Introduction

许多现代软件系统由人工智能系统组成,用于决策。在AI系统中,公平性被认为是一个重要的非功能性需求;人工智能系统中的偏见,反映了对无特权群体的歧视行为,可能会导致现实世界的伤害。为了满足这一需求,软件工程研究技术,如测试生成,已应用于检测[1][5]偏差。对于机器学习系统[1][4]的测试生成,人们提出了各种各样的技术,但对于基于文本的机器学习系统[5]中的偏差检测的研究却非常有限。基于文本的ML系统有许多应用,例如,自然语言处理技术已被用于情感分析(SA)。因此,重要的是,在这些系统部署之前,可以检测到这些系统中的偏差。
 
SA系统用于测量对一个实体的文本评论的态度和影响,如电影或新闻文章[6],[7]。在这项工作中,我们关注于发现SA中的偏见,原因有二。
 
首先,SA被广泛应用于[19]0、[9]的多个领域,包括政治[10]、[11]、金融[12][15]、商业[16]、教育[17][19]、医疗[20][22]。在研究界,SA继续被广泛研究[23][28]。在业界,许多公司,如microsoftt1和Google2,已经为软件开发人员开发并提供了api来访问SA功能。这表明了SA在现实生活中的流行。
 
其次,SA对自然语言处理的其他领域具有概括性。由于SA技术的研究建立在自然语言处理领域广泛的主题和任务之上,一些自然语言处理研究者认为SA是miniNLP[9]。Cambria等人[29]认为SA是一个具有复合性质的问题,需要同时解决15个更基本的NLP问题。因此,我们认为解决SA中的偏见是一个合适的第一步,它可能会导致一种更普遍的方法来检测文本数据中的偏见。
 
现代SA模型在基准数据集上表现出了优异的性能,证明了其有效性。然而,在软件工程[3]和人工智能[5]研究社区中,越来越多的人认识到,研究非功能需求是很重要的,例如公平性,这一点一直被忽视。人工智能系统从人类生成的数据中学习。在SA的情况下,训练数据通常是一个人类编写的评论数据集。训练数据可能反映了人类的偏见。因此,SA系统可能会对人口统计学特征表现出偏见,例如性别[30]、[31]。例如,SA系统预测的情绪可能不同扰动后一段文字的文本替换词描述一个人口特征,例如,改变我是一个亚洲人到我是一个黑人妇女可能导致预测从正到负情绪改变,因此,说明SA系统反映了人口统计学的偏倚。
 
由于SA系统用于许多领域(包括敏感领域,如医疗保健),并且可能用于业务分析以做出关键的业务决策,因此在这些系统中检测偏差非常重要。尽早发现这些偏见将有助于防止人类偏见的延续,并有助于防止现实世界的伤害。要做到这一点,SA系统应进行公平性测试(即,无非故意偏见),正如现有研究建议的[5],[30]。先前的研究依赖于少量的模板来生成可能发现偏见的简短文本。特别针对SA系统,Kiritchenko和Mohammad[30]提出了EEC,它从11个手工制作的模板生成测试用例。这些测试案例有助于检测SA系统是否预测了两个文本的不同情绪,而这两个文本仅在一个与不同性别或种族有关的单词上存在差异。
 
这些测试用例在数量上是有限的,并且可能不能充分地发现系统中的偏见。最近,SA研究人员[9]注意到,用于创建示例的模板可能过于简单,识别这种偏见可能相对容易。他们建议,未来的工作应该设计更复杂的案例,涵盖更广泛的场景。在这项工作中,我们的目标是通过自动生成测试用例来发现偏差,来解决手工制作模板的这些限制。
 
我们提出了BiasFinder,一个自动生成测试用例以发现SA系统中有偏差的预测的框架。BiasFinder在大量的评论中自动识别和管理合适的文本,并将这些文本转换为模板。每个模板都可以用来生成大量的突变文本,方法是在占位符中填充与给定人口统计特征(如性别)的类相关的具体值(如男性与女性)。使用这些突变文本,BiasFinder然后运行测试中的SA系统,检查它是否预测了与给定特征(如性别)的不同类别(如男性与女性)相关的两个突变体的相同情绪。一对这样的突变体是通过一个变形关系而联系在一起的,他们在一个公平的SA系统中共享相同的预测情绪。
 
它的主要特点是自动识别并将语料库中的合适文本转化为模板。这使得BiasFinder可以产生大量的测试用例,与以前的方法相比,这些测试用例是多样的和真实的。识别合适的文本转换为模板是一项挑战。例如,对某一实体的所有引用都应以一致的方式替换,而不使文本(例如段落)不连贯。图1显示了一个示例,其中引用实体(Jake)的所有表达式都需要更新。杰克的名字和它的参考(粗体和下划线)需要一起更新,以保持文本的连贯性。BiasFinder通过使用自然语言处理(NLP)技术来解决这一挑战,如参考解析和命名实体识别,来找到所有需要修改的单词。
 
我们的框架,BiasFinder,可以被实例化来标识识别不同种类的偏见。在这项工作中,我们展示了如何实例化偏见发现者,以揭示三个不同的人口统计学特征:性别、职业和原籍国的偏见。我们以经验的方式评估3个实例的BiasFinder运行在一个基于BERT[32]的最先进的文本分析引擎的SA模型上。通过在包含50K个电影评论的IMDB数据集[33]上运行BiasFinder,我们生成了类似于电影评论的文本(段落)测试用例。我们展示了在SA系统中发现偏差的BiasFinder的有效性;BiasFinder可以生成许多对文本来揭示SA系统所显示的偏差。此外,我们通过用户研究来评估文本对是否连贯,是否应该具有相同的情感(尽管SA系统预测的情感是不同的)。我们发现,偏置仪达到了合理的真实阳性率高达90%。
 
The contributions of our work are:
  1. 我们提出了BiasFinder,一个通过自动生成大量给定目标特征的现实测试用例来发现SA系统中的偏见的框架。BiasFinder的源代码是公开的。
  2. BiasFinder自动识别和管理合适的和真实的文本(各种复杂的),并将它们转换为可以用于检测偏见的实例化模板。之前的工作只考虑了少量手工制作的简单模板。
  3. 我们对BiasFinder在IMDB的50K电影评论[33]数据集上进行评估,生成了129,598个针对3个人口统计学特征、性别、职业和原籍国的偏见挖掘测试案例。

本文的其余部分组织如下。第2节介绍了与我们的工作相关的必要背景。第三节介绍偏置仪。第四节阐述了“性别偏见者”,一个用来检测性别偏见的“性别偏见者”的实例。第5节简要讨论了用于检测职业和原产国偏差的偏置仪实例。第6节描述了我们的实验结果。第7节介绍了相关的工作。最后,第8部分对本文进行了总结,并对未来的工作进行了展望。

 
 
 
 
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值