Chatbot Arena：一个根据人类偏好评估LLMs的开放平台

最新推荐文章于 2025-04-06 10:59:05 发布

三谷秋水

最新推荐文章于 2025-04-06 10:59:05 发布

阅读量3k

点赞数 24

分类专栏：大模型人工智能机器学习文章标签：语言模型人工智能机器学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/140338635

版权

大模型同时被 3 个专栏收录

728 篇文章

订阅专栏

机器学习

542 篇文章

订阅专栏

人工智能

424 篇文章

订阅专栏

24年3月来自UCBerkeley、斯坦福和UCSD的论文“Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference”。

大语言模型 (LLM) 已经解锁了新的功能和应用；然而，评估与人类偏好的一致性仍然面临重大挑战。为了解决这个问题，推出 Chatbot Arena，一个基于人类偏好评估 LLM 的开放平台。其方法采用成对比较方法，并通过众包利用来自不同用户群的输入。该平台已经运行了几个月，积累了超过 24 万张选票。本文介绍该平台，分析迄今为止收集的数据，并解释用于高效准确地评估和排名模型的可靠统计方法。
可以确认众包问题足够多样化和具有区分性，并且众包投票与专家评分员的投票高度一致。这些分析共同为 Chatbot Arena 的可信度奠定了坚实的基础。由于其独特的价值和开放性，Chatbot Arena 已成为最受引用的 LLM 排行榜之一，被领先的 LLM 开发人员和公司广泛引用。其演示公开发布在 https://chat.lmsys.org。

为了评估 LLM 的性能，研究界引入了各种基准。这些基准可以根据两个因素进行分类：问题来源（静态或实时）和评估指标（基本事实或人类偏好）。根据这些因素，基准可以分为四类，如图所示。虽然一系列基准都有好处，但目前评估 LLM 最流行的方法仍然是静态的、基于基本事实的评估，部分原因是这种评估成本低廉且可重复。MMLU（Hendrycks，2020）、HellaSwag（Zellers，2019）、GSM-8K（Cobbe，2021）、MT-Bench（Zheng，2023b）和 AlpacaEval（Li，2023）是静态基准的常见示例。Chatbot Arena 是新人类偏好和实时评估平台。

添加图片注释，不超过 140 字（可选）

然而，这些静态的、基于真实值的基准测试集表现出一些局限性。首先，这些基准测试集中的问题不是开放式的，这阻碍了捕捉现实世界中灵活和交互式使用的能力（Zheng，2023b）。其次，这些基准测试集中的测试集是静态的，这意味着它们会随着时间的推移而受到污染，从而破坏评估结果的可靠性（Yang，2023）。此外，对于许多复杂的任务来说，建立一个明确的标准不仅具有挑战性，而且有时是无法实现的。因此，当前的基准测试集无法充分满足最先进的 LLM 的需求，特别是在评估用户偏好方面。因此，迫切需要一个基于人类偏好的开放、实时评估平台，以更准确地反映现实世界的使用情况。

创建这样的基准测试平台面临着重大挑战。它需要收集实时、新鲜和多样化的用户问题，以准确地表示现实世界的场景。此外，开发可扩展、增量且高效的排名系统对于评估大量模型至关重要。此外，鉴于人类偏好的噪声性质，确保人工评估的质量至关重要。

在chatbot Arena平台中，采用成对比较机制，用户只需比较两个模型响应并投票选出更好的一个，而不需要用户提供绝对分数。

在每场战斗中，都会抽样两个匿名模型。为了鼓励数据多样性，不在网站上预设任何输入提示。用户可以自由地向两个模型输入任何提示。相信这会激励用户参与，特别是考虑到提供免费服务。它还帮助收集代表现实世界使用情况的多样化输入。在模型提供答案后，用户将它们并排比较并投票选出首选答案。如果用户在第一轮无法选择，用户可以继续聊天，直到确定获胜者。对于那些不确定的人，还提供了两个按钮，“平局”或“都不好”。如图展示了界面的屏幕截图。在使用服务之前，用户需要接受使用条款，这表明他们同意公开发布这些数据。

添加图片注释，不超过 140 字（可选）

数据涉及 50 多个模型，包括 GPT-4、Claude 和 Gemini 等专有模型，以及 LLaMA 和 Mistral 等开放模型。这些对话涵盖 100 多种语言，其中 77% 为英语，5% 为中文，其余语言（如俄语、德语、西班牙语、法语和日语）各占总数的不到 2%。每个数据点包括用户与两个 LLM 之间的多轮对话，以及一个表明用户更喜欢哪种模型的投票。在下表中总结了统计数据以及其他现有的人类偏好数据集。

添加图片注释，不超过 140 字（可选）

如图显示每个模型的投票数。平均每个模型收集了 8K 票。

添加图片注释，不超过 140 字（可选）

在下图中，选择了一组代表性模型，并展示了它们的胜率和战斗次数。请注意，由于不确定性较高，采用非均匀抽样将投票集中在具有相似性能的模型对上。这有助于减少达到稳定结果所需的投票数。随后，开发一种自适应抽样方法，并证明了其对随机抽样的有效性。

添加图片注释，不超过 140 字（可选）

为确保匿名性，用关键字过滤掉包含模型身份的对话，例如模型名称（例如 GPT、Claude）或公司（例如 OpenAI、Anthropic）。为避免滥用，用 OpenAI 审核 API 来标记包含不安全内容的对话。标记的用户请求占总请求的 3%。如图显示了一段时间内有效用户投票的数量，其中最近几个月每天获得 1-2K 票，并且随着推出新模型或排行榜更新而激增。

添加图片注释，不超过 140 字（可选）

让 A = {(m,m′): m < m′ 和 m, m′ ∈[M]} 表示比较数据集。考虑一个顺序设置，其中在时间 t ∈ N，为人类提供一对模型 At ∈ A（挑选的），然后观察人类的反应 Ht ∈ [0, 1]。

一个关键目标是估计赢矩阵：θ∗(a) = E[Ht |At =a]，其中 a ∈ A；在二元情况下，赢矩阵中的 a ，对应于人类在看到 a 对时，更喜欢模型 a2 而不是 a1 的概率。

正式地，考虑一个分数 s§ ，其中 P 是 A 和 H 的联合分布（默认情况下，以 A 上的均匀分布为目标）。每个模型都有一个真实分数 s§m，更好的模型将获得更高的分数。特别是，有模型 m 的排名：

添加图片注释，不超过 140 字（可选）

标准得分函数是 Bradley-Terry (BT) 系数向量（Bradley & Terry，1952）。在 Bradley-Terry 模型中，Ht ∈ {0, 1}，概率模型 m 优于模型 m′，通过逻辑关系建模：

添加图片注释，不超过 140 字（可选）

目标是估计总 Bradley-Terry 系数，也就是最小化二元交叉熵的系数：

添加图片注释，不超过 140 字（可选）

尽管 BT 模型在技术上假设模型胜率采用参数形式，但 Huber (1967) 和 White (1982) 的开创性结果表明，即使这些假设不成立，只要使用所谓的“三明治”协方差矩阵，最大似然估计量仍然渐近正态。先前在线界面的演变，报告了不同的排名分数，例如 Elo 分数（Elo，1967）而不是 BT 系数。进行此更改是因为 BT 系数更适合统计估计。