DeepSeek的爆火新闻满天飞,其中最显眼的就是“在国外大模型排名榜Chatbot Arena上,DeepSeek-R1的基准测试排名已经升至全类别大模型第三”,要知道这个排名的含金量。Chatbot Arena是目前最权威的大模型排名榜之一。当然除 Chatbot Arena 外,还有 MMLU(大规模多任务语言理解评估平台)、Hugging Face Leaderboard(展示多种模型在各类任务的性能数据 )、Benchmarksguru(提供模型基准测试排名等相关信息 )可辅助了解大模型排名情况 。那么为什么Chatbot Arena权威呢,今天我们就来聊聊大模型排名的学问。
网址:https://lmarena.ai/?leaderboard
Chatboot Arena大模型排行榜中最亮的仔
Chatbot Arena是一个免费开放的大语言模型评估平台,它采用众包的方式,让不同的用户参与评估。在这个平台上,用户会看到两个匿名的大语言模型,然后可以向它们提出任何问题。如下图所示,等模型给出答案后,用户要对比一下,选出自己更喜欢的那个答案,A模型的回答好还是B模型的回答好,还是平局等等。投票结束后,才会公布模型的身份。通过这种方式,平台能收集到各种各样真实的用户问题,这些问题能很好地反映大语言模型在实际应用中的情况。
网址:https://lmarena.ai/
现在我们知道Chatbot Arena排行榜了吧,都是实际的用户问题,实际的用户投票投出来的。当然,其他大模型的排名平台采用了不同方法,比如用基准测试,像MMLU、HellaSwag这些,它们大多是静态的,问题和答案都是提前设定好的。这种方式虽然便宜又能重复测试,但缺点也很明显。比如问题不够开放,没办法模拟真实场景中灵活互动的情况;测试集固定,用久了还会“污染”测试结果,说白了就是用测试集训练模型刷榜;而且很多复杂任务根本就没有绝对正确的答案,所以这些基准测试很难准确评估模型在真实世界中的表现,特别是用户对模型的喜好程度。因此,我们急需一个基于用户偏好的开放、实时评估平台,Chatbot Arena就是在这样的背景下诞生的。
Chatboot Arena排行榜可信不
(一)数据收集丰富多样
自2023年4月开始收集数据,到2024年1月,已经收到了90000多用户投出的240000多票。参与评估的模型超过50个,既有GPT-4、Claude、Gemini这些大家熟悉的,也有LLaMA、Mistral这样的开源模型。用户来自世界各地,对话涉及100多种语言,其中英语占比最大,达到77%,还有5%是中文。而且每个数据点都包含用户和两个大语言模型的多轮对话以及用户的投票信息,数据非常丰富。
(二)排名系统科学高效
平台的数据是基于两两比较的,那怎么根据这些比较结果给所有模型排名呢?Chatbot Arena用了Bradley-Terry(BT)系数等统计技术。通过估计模型之间的胜率矩阵,计算出每个模型的得分,进而得出排名。为了让排名更准确,还会计算置信区间。在计算过程中,采用了逆加权的最大似然估计方法,并且通过模拟研究发现,“三明治”稳健标准误差在大样本情况下效果更好,所以就用它来计算置信区间。此外,平台还设计了主动采样规则,根据采样对置信区间大小的影响来选择模型对,这样能大大提高采样效率,更快得到稳定的排名结果。
(三)数据质量严格把关
为了保证数据质量,平台在很多方面都下了功夫。比如,用关键词过滤掉包含模型身份信息的对话,防止用户因为知道模型是谁而影响投票;采用OpenAI moderation API标记不安全的内容,只有3%的用户请求会被标记。而且,平台还对用户提交的数据进行了深入分析。通过主题建模发现,用户的问题涵盖了诗歌写作、编程、数学、医学查询等600多个不同的主题,分布非常广泛,并且各个主题之间的相似度很低,这说明问题的多样性很高。同时,通过让专家重新标记数据发现,众包投票和专家评估的一致性很高,达到了72% - 83%,这充分验证了众包投票的质量。
(四)做了充分的实验论证
人家做了充分的实验,来论证排名系统出色。对213576条历史投票数据进行重新分析,计算出BT系数和置信区间。通过模拟实验发现,置信区间的覆盖范围表现良好,能以较高概率覆盖真实的BT系数。而且,主动采样规则效果显著,和随机采样相比,在达到相同精度的情况下,主动采样需要的数据量更少。比如,估计胜率矩阵时,随机采样需要6800个样本,而主动采样只需要4400个;估计分数时,随机采样需要17200个样本,主动采样只需要16400个。
Chatbot Arena为大语言模型的评估提供了一个非常有价值的平台,虽然还有一些需要完善的地方,比如开发更全面的主题排行榜,但它的出现推动了大语言模型评估领域的发展,让我们能更准确地了解不同模型的表现。如果想了解更多内容,可以拜读一下官方chatbot Arena的论文,我放到了CSDN资源中,免费下载吧!