题目
人类还是LLMs作为裁判?判断偏差研究
论文地址:https://arxiv.org/pdf/2402.10669
摘要
采用人类和大型语言模型(LLM)作为评估LLM性能的评判者(也称为人类和LLM-as-a-judge)最近受到了关注。然而,这种方法同时引入了来自人和LLM的潜在偏差,质疑了评估结果的可靠性。在本文中,我们提出了一个新的框架,该框架不引用基础事实注释,用于调查LLM和人类法官的错误信息监督偏见、性别偏见、权威偏见和美貌偏见。我们参考修正后的布鲁姆分类法建立了一个数据集,并进行了数千次评估。结果表明,人类和LLM法官容易受到不同程度的干扰,即使是最先进的法官也有相当大的偏见。我们进一步利用这些偏见对LLM法官进行攻击。我们希望我们的工作能够让社区了解人类和法官的偏见和脆弱性,以及开发强大评估系统的紧迫性。
警告:我们提供了说明性的攻击协议来揭示LLM法官的漏洞,旨在开发更强大的攻击协议
引言
介绍专有模型,如GPT-4 (OpenAI等人,2023),克劳德(Anthropic,2024),GeminiPro (Team等人,2024),展示了他们在众多自然语言处理任务中的杰出能力,同时也是各种场景中的日常使用工具。与此同时,开源社区正试图复制专有模型并使LLM民主化。为了更好地跟踪LLM的进展,社区非常重视评估模型性能,开发了许多基准测试,大致可以分为开放式和封闭式。虽然诸如MMLU (Hendrycks等人,2020年)、C-Eval(黄等人,2023年)等封闭式基准便于评估,但是它们经常遭受数据污染问题。用内部数据训练的专有LLM往往在封闭式基准测试中表现特别好。另一方面,开放式基准(如MTBench(郑等,2023)和Alpaca-Eval(李等,2023))通过自由形式的生成来测试模型,这更符合真实世界的用例,并严重依赖于LLM的生成能力。开放式基准测试中的数据污染问题不太严重,因为没有标准答案,即使有污染,它对性能黑客攻击的帮助也很小。
开放式基准通常依靠人工来评估答案质量。近年来出现的人工匹配的LLM,LLM-as-adjudge(郑等,2023)作为人类法官的一种替代。最近,人们发现这两种类型的法官都具有一定的偏见(郑等,2023;吴和阿吉,2023),质疑人和法律硕士作为法官的有效性。因此,一个重要的问题产生了:人类和LLM在判断开放式世代上有多大的偏差?当前的偏见评估框架需要一个黄金标准,要么是基本事实(例如,正确与错误、有害与无害)的形式,要么是人类提供参考答案的形式。但是,如果我们打算探索一些没有提供或没有很好定义的金标准的扰动的影响呢?
在本文中,我们首先确定了四种兴趣偏差:错误信息忽略偏差、性别偏差、权威偏差和美貌偏差,它们在自然语言生成(NLG)评估中至关重要。受干预研究的启发,我们通过在原始答案中分别添加4个扰动(事实错误、性别偏见内容、虚假参考和丰富内容)来研究这些偏差。为了填补目前研究的空白,我们提出了一个新的无参考框架,用于人类和LLM法官的偏见评估。我们首先组成一个控制组和一个实验组,其中前者的每个样本都包含同一问题的一对答案,后者的每个答案对都由前者的一个答案和另一个答案的扰动版本组成。然后,我们通过攻击成功率(ASR)来量化两组之间的偏好变化,其中较高的值表明法官拥有更严重的偏见。我们进一步利用发现的偏见对LLM法官进行攻击。
总之,我们的主要贡献和发现总结如下:我们确定了四个未充分探索的偏见(第3节)。我们提出了一个新的无参考框架,用于人类和LLM法官的偏见分析(第4节)。我们发现,人类法官几乎没有性别偏见,但具有明显的错误信息偏见和美貌偏见。所有法学硕士法官都在不同程度上存在错误信息监督偏见、性别偏见、权威偏见和美貌偏见(第5节)。人们可以很容易地利用权威偏见和美貌偏见对LLM法官进行即时攻击,在GPT协议第4版(第6节)上实现高达50%的ASR。
相关作品
人和LLM评价人的反馈是NLG评价的流行金标准。收集的反馈可用于改善模型性能(Kreutzer等人,2018;周和徐,2020;雷科等人,2018;齐格勒等人,2019;斯蒂农等人,2020年;bhm等人,2019;欧阳等,2022;Christiano等人,2023)或作为聊天机器人领域的输出质量指标(郑等人,2023)。在LLMs出现之前,BertScore(张等,2020)、BARTScore(袁等,2021)、DiscoScore(赵等,2023)和GPTScore(傅等,2023)是用于评估任务的常用度量标准。最近,强大的LLM是代替以前的方法作为评判标准,并广泛用于评估LLM性能(Chen等人,2023b张等,2023;陈等,2023a王等,2023b)。
人类和LLM法官的偏见人类和LLM法官都被发现有偏见