还在 GPT-4o 进行评测么？快来试试开源评价大模型 CompassJudger

最新推荐文章于 2025-05-01 22:59:55 发布

Python编程杰哥

最新推荐文章于 2025-05-01 22:59:55 发布

阅读量932

点赞数 7

文章标签： 1024程序员节人工智能 transformer 深度学习学习知识图谱

本文链接：https://blog.csdn.net/xx_nm98/article/details/143218681

版权

近日，司南OpenCompass 研究团队发布了社区真正意义上的第一个开源的 All-in-one Judge Model——CompassJudger 系列，包含1.5B、7B、14B 和 3 2B 共四个量级的模型，其中 32B 版本更是具备 GPT-4o-0806 95%以上的 Judge 能力，支持 pair-wise/point-wise 多种评价方式，更能输出详细的评价理由。

技术报告地址

https://arxiv.org/abs/2410.16256

GitHub 地址

https://github.com/open-compass/CompassJudger

什么是 All-in-one Judge Model?

在进行主观评测的过程中，通常需要一个 Judge Model 来对待测模型的回复进行评分或比较，从而代替人类来进行这一评价工作，得到待测模型在各类主观题上的得分。过去，这往往是由能力较强的闭源模型如 GPT4 来进行的，GPT4 也因此成为了在 AlignBench，AlpacaEval，ArenaHard 等数据集上的标准评测模型。然而，在科学研究和模型迭代的过程中，往往需要进行大规模的评测，而使用闭源模型的成本非常高昂。

All-in-one 评价模型目标是能够完成并胜任多种不同的评价任务，在包括多回复选择、单回复打分、复杂指令跟随、回复内容评价修改等多种任务上实现良好表现。目前社区已经研发了一些 Judge Model 如 CritiqueLLM，Auto-J 等，但这些评价模型只专注在某个数据集上使用。此外，评价模型也受到了国内外大型科技公司的广泛关注，如 Google 发布了其评价模型 FLAMe，但该模型和数据尚未公开。Meta 也发布了Self-taught Model，但目前也主要集中在 Pair-wise 的评价。

司南研究团队凭借在模型评测和数据分析领域的深厚积累，研发了 CompassJudger。为了推动相关领域的探索和研究，开源多个不同尺寸的模型来助力相关方向的探索和研究，也使得用户可以更便捷地进行模型训练、测试和优化。

数据收集过程

在模型训练的过程中最重要的流程是数据的收集与处理。于是在训练 CompassJudger的过程中，我们针对三种来源的数据，进行了以下处理：

开源评价数据：对于收集到的开源 judge 数据，我们首先按照数据集的时间筛选出一批较老的数据，这些数据由例如较早版本的 ChatGPT 进行 judge，评价质量亟待改善。因此我们使用当前的较强开源模型 (Qwen2.5-72B-Instruct) 作为 processor 进行了重新 judge。我们同时利用 processor 给每条数据打上类别标签，按照类别和数据集的数量进行了重新采样以保证最终的数据平衡。

Reward数据：社区已经开源了大量用于训练 Reward Model 的训练数据，我们在实验中也发现大量的 Reward 数据能给模型带来 judge 能力的提升，但同时也会因输出格式过于单一导致模型坍塌，变为只能输出固定格式，失去了作为通用 judge model 的价值。因此我们采样部分 Reward 数据用于模型训练，并针对数学等题目类型添加了评价理由。

通用SFT数据：此外，为了更加保持模型的泛化能力，我们依然加入了通用 SFT 数据进行训练，经过我们的实验，平衡了最终的数据比例为 judge 数据：reward 数据：sft 数据=1:3:1，并选用了目前开源 Qwen2.5 系列模型进行 CompassJudger 的训练。

JudgerBench

在模型研发中，我们为了跟踪 CompassJudger 的性能表现，研发了 JudgerBench 来进行模型能力的分析。

JudgerBench 旨在衡量模型的评价能力的优劣，主要由 Arena Part 和Benchmark Part 两个部分组成。Arena Part 与 RewardBench 类似，考察模型的直接 Judge 的能力，只要求模型输出[[A]]或[[B]]的 judge 结果即可，共有中英文两个部分，并经过严格的人工审核和类别平衡，包含多轮和单轮对话以及十个类别，是非常平衡完备的一个测试基准。Benchbark 则是采集了常用的主观数据集（AlignBench，ArenaHard，FoFo，WildBemch）收集了 10 个性能相近的模型在这些数据集上的回复，再利用 GPT-4o 进行 judge，将其评价结果作为比较基准，统计其他模型的评价结果与之的差异。在 Benchmark Part 中我们使用了准确率和皮尔森相关性作为两个衡量的指标，更加完备均衡的展现模型的评价性能。

CompassJudger 性能表现

我们在 RewardBench 和 JudgerBench 上对 CompassJudger 系列模型进行了分析和评价，从表中我们可以看出，CompassJudger 系列在通用评价性能方面表现出色，其最终评价得分在所有开源模型中位居前列，并达到了GPT-4o 95%以上的水准，是兼具多种任务能力的All-in-one Judge Model。

在这里插入图片描述

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述