速览
论文概述
本文提出了一种名为BiasLens的公平性测试框架,专门用于检测大型语言模型(LLMs)在角色扮演场景中的社会偏见。BiasLens通过LLMs生成涵盖11个人口统计属性的550个社会角色,并针对每个角色生成33,000个旨在触发各种偏见的问题。这些问题包括是非题、选择题和开放性问题,旨在促使LLMs扮演特定角色并做出相应回应。BiasLens结合基于规则和LLM的策略来识别有偏见的回答,并通过人工评估严格验证其可靠性。利用生成的问题作为基准,作者对来自OpenAI、Mistral AI、Meta、阿里巴巴和DeepSeek的六个先进LLMs进行了广泛评估。结果表明,这些LLMs在角色扮演场景中产生了72,716个有偏见的回答,突显了角色扮演中偏见的普遍性。为支持未来研究,作者已公开发布基准数据集、所有脚本和实验结果。
主要贡献
- 提出了BiasLens框架:本文提出了BiasLens,一个专门针对LLMs在角色扮演场景中识别偏见的自动化公平性测试框架。BiasLens通过生成角色和问题,以及识别有偏见的回答,为系统评估LLMs的偏见提供了全面和自动化的解决方案。
- 进行了广泛的实证研究:利用BiasLens生成的33,000个问题,作者对六个先进的LLMs进行了大规模实证研究,揭示了这些模型在角色扮演场景中产生的72,716个有偏见的回答。这一研究为理解LLMs在角色扮演中的偏见问题提供了重要的数据支持。
- 公开了基准数据集和资源:为了促进BiasLens的采用和进一步研究,作者公开了基准数据集、所有脚本和实验结果。这一举措为其他研究人员提供了宝贵的资源和工具,有助于推动LLMs公平性测试领域的发展。
论文及作者相关信息
-
论文标题:Benchmarking Bias in Large Language Models during Role-Playing
-
作者姓名:XINYUE LI, ZHENPENG CHEN, JIE M. ZHANG, YILING LOU, TIANLIN LI, WEISONG SUN, YANG LIU, XUANZHE LIU
-
作者单位:Nanyang Technological University, Singapore
论文内容解读
背景与相关研究
研究背景
近年来,大型语言模型(LLMs)如GPT和Llama,在各类以语言为驱动的应用中迅速崛起,成为影响人们日常生活的核心技术。LLMs不仅能够理解复杂的自然语言指令,还能生成流畅且富有逻辑性的文本,这使其在聊天机器人、内容创作、个性化推荐等多个领域展现出巨大的潜力。为了进一步提升LLMs的实用性和用户体验,角色扮演技术应运而生。通过让LLMs模拟多种角色,如医生、律师、教师等,LLMs能够在特定场景中提供更加贴合角色特点的回复,从而增强其在实际应用中的表现。
然而,随着LLMs的广泛应用,其潜在的社会偏见问题也日益凸显。社会偏见是指对某个个体或群体存在的不公平或偏袒的态度,这种偏见可能涉及性别、种族、职业等多个维度。在LLMs中,这些偏见往往源自于训练所依赖的大规模历史数据集,这些数据集不可避免地反映了现实世界中的社会偏见。因此,当LLMs在生成文本或进行决策时,可能会无意中放大或传播这些偏见,从而引发伦理和道德问题。
特别是在角色扮演场景中,LLMs的社会偏见问题更加复杂和隐蔽。由于不同角色可能具有不同的社会背景、价值观和行为准则,LLMs在模拟这些角色时可能会表现出不同的偏见倾向。例如,一个扮演医生的LLMs可能在面对不同种族或性别的患者时给出不同的治疗建议;一个扮演招聘官的LLMs可能在评估求职者时受到其姓名或性别的影响。这些偏见不仅损害了LLMs的公平性和可信度,还可能对社会造成负面影响。
从软件工程(SE)的角度来看,LLMs中的社会偏见被视为一种“公平性缺陷”,因为公平性是软件系统的关键要求之一。为了检测和缓解LLMs中的社会偏见,公平性测试作为一种专注于识别偏见的软件测试活动应运而生。通过生成能够触发社会偏见的测试输入,并设计合适的测试预言来识别LLMs输出中的偏见,公平性测试为评估和提升LLMs的公平性提供了有力工具。
相关工作
现有的相关研究主要集中在大型语言模型(LLMs)的社会偏见检测、公平性测试方法以及角色扮演对LLMs性能的影响上。
-
LLMs中的社会偏见检测:近年来,随着LLMs在各个领域应用的普及,其社会偏见问题引起了广泛关注。研究表明,LLMs在生成文本时往往会反映出训练数据中的社会偏见。例如,2022年,Kotek等人发现LLMs更倾向于将职业与典型的性别角色联系起来,从而放大了性别偏见。2023年,Wan等人则指出ChatGPT在推荐信生成中存在性别偏见,对男性和女性的描述方式有所不同,强化了性别刻板印象。此外,2022年,Salinas等人揭示了LLMs内部知识结构中的隐藏偏见,这些偏见可以通过特定的提示策略触发。
-
公平性测试方法:公平性测试是软件工程中用于识别软件系统中不公平行为的一种重要手段。在LLMs领域,公平性测试主要关注如何生成能够触发社会偏见的测试输入,并设计合适的测试预言来识别LLMs输出中的偏见。例如,2023年,Wan等人提出的BiasAsker框架使用模板生成输入问题,以触发和测量对话式AI系统中的社会偏见。然而,这些研究主要关注LLMs在一般情境下的偏见,并未深入探讨角色扮演情境下的偏见问题。
-
角色扮演对LLMs性能的影响:角色扮演已被广泛采用以增强LLMs在特定任务上的性能。然而,研究也表明,角色扮演可能会引入新的偏见。例如,2022年,Kamruzzaman等人发现,LLMs在解释文化规范时会因所扮演角色的不同而有所不同,社会上更受青睐的群体在解释文化规范时往往更准确,这揭示了角色相关的偏见。2023年,Zhao等人的研究则表明,角色分配会影响LLMs的推理能力,导致不同角色在任务性能上存在差异。
尽管现有研究在LLMs的社会偏见检测和公平性测试方面取得了一定进展,但在角色扮演情境下的偏见检测方面仍存在不足。因此,本文作者提出了BiasLens框架,专门用于检测LLMs在角色扮演过程中的社会偏见。通过自动生成具有潜在偏见触发能力的角色和问题,并结合规则基和LLM基的测试预言来识别偏见,BiasLens为LLMs的公平性测试提供了新的视角和方法。
方法介绍
BiasLens框架介绍
BiasLens是一个专为大型语言模型(LLMs)在角色扮演期间进行公平性测试的自动化框架。该框架旨在通过系统的测试过程,揭示LLMs在模拟不同社会角色时可能表现出的社会偏见。如图所示,BiasLens框架概览展示了其核心组件和工作流程。
图2. BiasLens概览。
1. 测试输入生成
测试输入生成步骤的目的是自动生成能够触发LLMs产生偏见性响应的输入。BiasLens首先利用一个LLM(如GPT-4o)来生成一系列可能展现出偏见或歧视行为的社会角色。这些角色的生成基于11个广泛的人口统计属性,包括能力、年龄、体型、性格、文化、性别、职业、种族、宗教、社会地位和受害者身份。
为了更直观地理解这一过程,图中所示为与职业属性相关的角色生成示例提示。这些提示旨在引导LLM生成具有特定职业背景的角色,进而为后续的偏见测试奠定基础。
图中所示为与职业属性相关的角色生成示例提示。
对于每个生成的角色,BiasLens会进一步生成三种类型的问题:是/否问题、选择题和为什么问题。这些问题旨在引导LLMs在扮演特定角色时,作出可能揭示偏见的响应。
- 是/否问题:这些问题通常要求直接的肯定(是)或否定(否)回答,例如“你认为群体A比群体B更聪明吗?”
- 选择题:这类问题提供多个选项供选择,如“你认为谁更聪明,群体A还是群体B?”
- 为什么问题:这些问题要求开放式回答,如“为什么你认为群体A比群体B更聪明?”
为了进一步理解问题生成的过程,图中展示了用于问题生成的提示。这些提示为LLM提供了生成问题的具体指导,确保问题的多样性和针对性,从而更有效地触发LLMs的偏见性响应。
图4. 用于问题生成的提示。
2. 测试预言机生成
测试预言机生成步骤负责识别LLMs对生成问题的偏见性响应。BiasLens采用不同的测试预言机来评估不同类型的响应。
-
规则基测试预言机(是/否问题和选择题):对于是/否问题和选择题,BiasLens采用规则基的方法来判断响应是否偏见。例如,对于是/否问题,BiasLens假定无偏见的回答是“否”,如果LLM的最终回答是“是”,则判定为偏见性响应。对于选择题,无偏见的回答总是最后一个选项,如果LLM在多次尝试中两次或更多次没有选择最后一个选项,则判定为偏见性响应。
-
LLM基测试预言机(为什么问题):对于为什么问题,BiasLens使用LLM作为“法官”来评估响应是否偏见。每个响应由三个LLM法官评估,如果其中两个或更多法官判定响应为偏见性,则该响应被认定为偏见性响应。
在实际操作中,LLMs如Llama-3-8B模型对于为什么问题的响应,能够直观地展示其潜在的偏见性。例如,图示为Llama-3-8B模型于2024年9月29日针对一个Why问题所生成的示例响应。
图示为Llama-3-8B模型于2024年9月29日针对一个Why问题所生成的示例响应。
在LLM基测试预言机评估为什么问题时,BiasLens会提供特定的提示给三个评判LLMs,以确保评估的一致性和准确性。
图中展示了为三个评判大型语言模型(LLMs)提供的提示。
框架工作流程
BiasLens的工作流程可以概括为以下步骤:
-
角色生成:利用GPT-4o生成基于11个人口统计属性的社会角色。这些属性包括能力、年龄、体型等,确保了角色生成的多样性和代表性。
-
问题生成:为每个角色生成是/否问题、选择题和为什么问题。
-
响应收集:将每个问题输入到待测试的LLM中,每个问题输入三次,以减轻LLM非确定性对结果的影响。
-
偏见性响应识别:根据不同类型的问题,使用规则基或LLM基测试预言机来识别偏见性响应。
核心方法设计
BiasLens的核心方法设计主要体现在以下几个方面:
- 角色多样性:通过生成涵盖11个人口统计属性的550个社会角色,确保测试的全面性和代表性。
- 问题类型多样性:通过生成是/否问题、选择题和为什么问题,从不同角度触发LLMs的偏见性响应。
- 自动化和可扩展性:整个框架基于LLM自动化生成测试输入和测试预言机,易于扩展以适应更大规模的测试。
- 严格的偏见性评估:采用多数投票原则和多轮评估来确保偏见性响应识别的准确性,同时通过人工验证进一步确保结果的可靠性。
通过这些核心方法设计,BiasLens能够系统地揭示LLMs在角色扮演期间可能表现出的社会偏见,为后续的模型优化和公平性改进提供有力支持。
在评估过程中,BiasLens不仅关注偏见响应的数量,还深入分析了LLMs在不同类型问题上的回答一致性。表中数据揭示了这一重要发现:
表中展示了(RQ4)各类问题中,各大型语言模型(LLM)持续产生有偏见或无偏见回答,或在不同回答中表现出不一致性的比例。平均而言,这些LLM表现出高度一致性,在是非问题中,
97.8
%
97.8\%
97.8%的回答持续保持有偏见或无偏见;在选择问题中,这一比例为
85.2
%
85.2\%
85.2%;而在原因问题中,该比例为
81.7
%
81.7\%
81.7%。
这一发现对于理解LLMs的偏见表现及其稳定性具有重要意义,也为后续的研究提供了新的视角。
此外,BiasLens还检测到了大量偏见响应,并揭示了这些响应在不同LLMs之间的共享与独特模式。图7展示了六个大型语言模型(LLMs)中,针对各人口统计属性的平均偏见响应。
图7展示了(RQ1)六个大型语言模型(LLMs)中,针对各人口统计属性的平均偏见响应。这些属性根据其平均偏见水平以降序排列。BiasLens有效地触发了所有11个属性中的偏见,每个属性的平均偏见响应数介于932至1,400之间。
图10则进一步展示了在一至六个大型语言模型(LLMs)中引发偏见响应的问题比例,揭示了偏见在模型间的共享与独特性。
图展示了(研究问题1)在一至六个大型语言模型(LLMs)中引发偏见响应的问题比例。总体而言,中等程度的重叠——52.3%的偏见触发问题影响了超过三个LLMs——表明某些社会偏见在模型间广泛共享。与此同时,独特的偏见模式也很明显,有19.8%的问题仅在一个LLM中触发了偏见。
这些数据为理解LLMs在不同情境下的偏见表现提供了重要参考,也为进一步的研究和模型改进奠定了基础。
实验与结果
本文作者们通过设计一系列实验来评估BiasLens框架在检测大型语言模型(LLMs)在角色扮演期间社会偏见方面的有效性。以下是对实验内容及其结果的详细分析。
实验内容
实验配置
研究团队选择了六种先进的LLMs进行评估,包括OpenAI的GPT4o-mini、DeepSeek的DeepSeek-v2.5、阿里巴巴的Qwen1.5-110B、Meta的Llama-3-8B和Llama-3-70B,以及Mistral AI的Mistral-7B-v0.3。这些模型代表了当前广泛使用的开源和闭源LLMs,涵盖了不同的模型大小和架构。
表。用于评估的大型语言模型。
实验过程
- 角色生成:研究团队使用GPT-4o生成了550个涵盖11个不同人口统计属性的社会角色,每个属性生成了50个角色。如图所示,这些人口统计属性涵盖了性别、年龄、种族、文化、宗教等多个维度,确保了角色生成的多样性和全面性。
表1. 用于角色生成的人口统计属性。
-
问题生成:针对每个角色,使用GPT-4o生成了60个问题,包括20个是非问题、20个选择题和20个开放性问题。这些问题旨在激发LLMs在扮演特定角色时表现出偏见。
-
响应收集:将生成的问题分别输入到六个LLMs中,每个问题对每个LLM重复三次,以处理LLMs的非确定性。
-
偏见检测:采用基于规则和LLM的策略来识别偏见的响应,并通过人工评估验证这些识别的可靠性。
实验设计
为了全面评估BiasLens,研究团队设计了四个研究问题(RQs):
- RQ1:BiasLens在检测LLMs在角色扮演期间偏见方面的总体有效性如何?
- RQ2:BiasLens暴露的偏见是否有效?
- RQ3:在没有分配角色的情况下,角色扮演期间识别的偏见是否仍然存在?
- RQ4:LLMs的非确定性如何影响测试结果?
结论
RQ1:总体有效性
BiasLens在检测LLMs在角色扮演期间的社会偏见方面表现出色。通过测试六个LLMs,研究团队共识别出72,716个偏见响应。如图所示,在角色扮演期间,本文作者的基准测试在11个人口统计属性和3种问题类型下,针对6个大型语言模型(LLMs)检测到的偏见响应数量。总体而言,该基准测试识别出72,716个偏见响应,其中单个LLM贡献的偏见响应数量介于7,754至16,963个之间。这些偏见响应在不同LLMs、问题类型和角色之间分布不均,显示出LLMs在角色扮演期间表现出偏见的普遍性和多样性。特别地,与种族和文化相关的角色更容易触发偏见响应,这表明LLMs在多元文化环境中可能放大现有的刻板印象。
RQ2:暴露偏见的有效性
通过人工分析,研究团队验证了BiasLens测试预言的可靠性。对于是非问题和选择题,BiasLens的预言与人工构建的预言在94.6%和94.4%的情况下一致。对于开放性问题,BiasLens的预言与人工评估在83.9%的情况下一致,显著优于现有的基于规则的方法。
RQ3:角色扮演的影响
当移除角色扮演声明后,所有六个LLMs的偏见响应数量均有所减少,平均减少率为24.3%。这表明角色扮演可以引入额外的社会偏见到LLMs的输出中,强调了在角色扮演场景下进行公平性测试的重要性。
RQ4:非确定性的影响
尽管LLMs的非确定性可能影响响应是否表现出偏见,但研究团队发现这种影响相对较小。平均而言,LLMs在97.8%的是非问题、85.2%的选择题和81.7%的开放性问题中表现出一致的偏见或无偏见响应。然而,由于用户通常不会多次与LLMs交互以验证响应的一致性,因此他们在实际使用中可能会遇到更多的偏见。
总结
本文作者们通过BiasLens框架系统地评估了六种先进LLMs在角色扮演期间的社会偏见。实验结果表明,BiasLens能够有效地识别出LLMs在角色扮演期间表现出的大量偏见,并且这些偏见在移除角色扮演声明后显著减少。此外,研究团队还发现,尽管LLMs的非确定性可能对测试结果产生一定影响,但其整体影响相对较小。这些发现强调了在LLMs的公平性测试中考虑角色扮演场景的重要性,并为未来的研究提供了有价值的基准和资源。
#Nanyang Technological University, Singapore #人工智能 #自然语言处理