Chatbot Arena:一个根据人类偏好评估LLMs的开放平台

164 篇文章 0 订阅
159 篇文章 1 订阅

24年3月来自UCBerkeley、斯坦福和UCSD的论文“Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference”。

大语言模型 (LLM) 已经解锁了新的功能和应用;然而,评估与人类偏好的一致性仍然面临重大挑战。为了解决这个问题,推出 Chatbot Arena,一个基于人类偏好评估 LLM 的开放平台。其方法采用成对比较方法,并通过众包利用来自不同用户群的输入。该平台已经运行了几个月,积累了超过 24 万张选票。本文介绍该平台,分析迄今为止收集的数据,并解释用于高效准确地评估和排名模型的可靠统计方法。
可以确认众包问题足够多样化和具有区分性,并且众包投票与专家评分员的投票高度一致。这些分析共同为 Chatbot Arena 的可信度奠定了坚实的基础。由于其独特的价值和开放性,Chatbot Arena 已成为最受引用的 LLM 排行榜之一,被领先的 LLM 开发人员和公司广泛引用。其演示公开发布在 https://chat.lmsys.org。

为了评估 LLM 的性能,研究界引入了各种基准。这些基准可以根据两个因素进行分类:问题来源(静态或实时)和评估指标(基本事实或人类偏好)。根据这些因素,基准可以分为四类,如图所示。虽然一系列基准都有好处,但目前评估 LLM 最流行的方法仍然是静态的、基于基本事实的评估,部分原因是这种评估成本低廉且可重复。MMLU(Hendrycks,2020)、HellaSwag(Zellers,2019)、GSM-8K(Cobbe,2021)、MT-Bench(Zheng,2023b)和 AlpacaEval(Li,2023)是静态基准的常见示例。Chatbot Arena 是新人类偏好和实时评估平台。

添加图片注释,不超过 140 字(可选)

然而,这些静态的、基于真实值的基准测试集表现出一些局限性。首先,这些基准测试集中的问题不是开放式的,这阻碍了捕捉现实世界中灵活和交互式使用的能力(Zheng,2023b)。其次,这些基准测试集中的测试集是静态的,这意味着它们会随着时间的推移而受到污染,从而破坏评估结果的可靠性(Yang,2023)。此外,对于许多复杂的任务来说,建立一个明确的标准不仅具有挑战性,而且有时是无法实现的。因此,当前的基准测试集无法充分满足最先进的 LLM 的需求,特别是在评估用户偏好方面。因此,迫切需要一个基于人类偏好的开放、实时评估平台,以更准确地反映现实世界的使用情况。

创建这样的基准测试平台面临着重大挑战。它需要收集实时、新鲜和多样化的用户问题,以准确地表示现实世界的场景。此外,开发可扩展、增量且高效的排名系统对于评估大量模型至关重要。此外,鉴于人类偏好的噪声性质,确保人工评估的质量至关重要。

在chatbot Arena平台中,采用成对比较机制,用户只需比较两个模型响应并投票选出更好的一个,而不需要用户提供绝对分数。

在每场战斗中,都会抽样两个匿名模型。为了鼓励数据多样性,不在网站上预设任何输入提示。用户可以自由地向两个模型输入任何提示。相信这会激励用户参与,特别是考虑到提供免费服务。它还帮助收集代表现实世界使用情况的多样化输入。在模型提供答案后,用户将它们并排比较并投票选出首选答案。如果用户在第一轮无法选择,用户可以继续聊天,直到确定获胜者。对于那些不确定的人,还提供了两个按钮,“平局”或“都不好”。如图展示了界面的屏幕截图。在使用服务之前,用户需要接受使用条款,这表明他们同意公开发布这些数据。

添加图片注释,不超过 140 字(可选)

数据涉及 50 多个模型,包括 GPT-4、Claude 和 Gemini 等专有模型,以及 LLaMA 和 Mistral 等开放模型。这些对话涵盖 100 多种语言,其中 77% 为英语,5% 为中文,其余语言(如俄语、德语、西班牙语、法语和日语)各占总数的不到 2%。每个数据点包括用户与两个 LLM 之间的多轮对话,以及一个表明用户更喜欢哪种模型的投票。在下表中总结了统计数据以及其他现有的人类偏好数据集。

添加图片注释,不超过 140 字(可选)

如图显示每个模型的投票数。平均每个模型收集了 8K 票。

添加图片注释,不超过 140 字(可选)

在下图中,选择了一组代表性模型,并展示了它们的胜率和战斗次数。请注意,由于不确定性较高,采用非均匀抽样将投票集中在具有相似性能的模型对上。这有助于减少达到稳定结果所需的投票数。随后,开发一种自适应抽样方法,并证明了其对随机抽样的有效性。

添加图片注释,不超过 140 字(可选)

为确保匿名性,用关键字过滤掉包含模型身份的对话,例如模型名称(例如 GPT、Claude)或公司(例如 OpenAI、Anthropic)。为避免滥用,用 OpenAI 审核 API 来标记包含不安全内容的对话。标记的用户请求占总请求的 3%。如图显示了一段时间内有效用户投票的数量,其中最近几个月每天获得 1-2K 票,并且随着推出新模型或排行榜更新而激增。

添加图片注释,不超过 140 字(可选)

让 A = {(m,m′): m < m′ 和 m, m′ ∈[M]} 表示比较数据集。考虑一个顺序设置,其中在时间 t ∈ N,为人类提供一对模型 At ∈ A(挑选的),然后观察人类的反应 Ht ∈ [0, 1]。

一个关键目标是估计赢矩阵:θ∗(a) = E[Ht |At =a],其中 a ∈ A;在二元情况下,赢矩阵中的 a ,对应于人类在看到 a 对时,更喜欢模型 a2 而不是 a1 的概率。

正式地,考虑一个分数 s§ ,其中 P 是 A 和 H 的联合分布(默认情况下,以 A 上的均匀分布为目标)。每个模型都有一个真实分数 s§m,更好的模型将获得更高的分数。特别是,有模型 m 的排名:

添加图片注释,不超过 140 字(可选)

标准得分函数是 Bradley-Terry (BT) 系数向量(Bradley & Terry,1952)。在 Bradley-Terry 模型中,Ht ∈ {0, 1},概率模型 m 优于模型 m′,通过逻辑关系建模:

添加图片注释,不超过 140 字(可选)

目标是估计总 Bradley-Terry 系数,也就是最小化二元交叉熵的系数:

添加图片注释,不超过 140 字(可选)

尽管 BT 模型在技术上假设模型胜率采用参数形式,但 Huber (1967) 和 White (1982) 的开创性结果表明,即使这些假设不成立,只要使用所谓的“三明治”协方差矩阵,最大似然估计量仍然渐近正态。先前在线界面的演变,报告了不同的排名分数,例如 Elo 分数(Elo,1967)而不是 BT 系数。进行此更改是因为 BT 系数更适合统计估计。

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值