背景
通过能力评测促进模型发展
- 面向未来,拓展能力维度。多维度评测,如数学、复杂推理、逻辑推理、代码和智能体等等。
- 扎根通用能力,聚焦垂直行业。可以结合行业知识和规范,评估模型在行业内的适用性。
- 高质量中文基准。促进中文社区的的大模型发展。
- 性能评测,反哺能力迭代。发现模型不足,针对性研究提升策略。
大语言模型评测面临的挑战
- 全面性。应用场景多,能力进化快。
- 评测成本。算力资源贵,人工打分更贵。
- 数据污染。海量预料会包含测试集内容。
- 鲁棒性。
开源历程
- 2023年5月1日发布
- 2024年1月30日发布2.0版本 OpenCompass2.0
- 广泛应用于头部大模型企业和科研机构
我们如何评测大模型
根据模型的类别,然后设定不同的评测方法
根据评测方式,划分为客观评测和主观评测
- 主观评测有人工评价(很贵)和模型评价
- 提示词工程。提示词给得更具体,真实反映模型性能,防止因提示词太模糊导致模型分数偏低。
- 小样本学习、思维链操作,让题目变得更好。
- 长文本评测。测试大模型在长文本中记住细节内容的能力。
中立全面的性能榜单 CompassRank
- 大语言和多模态
大模型评测全栈工具链CompassK
- 支持更换模型推理后端,提高模型推理速度
OpenCompass评测流水线
- 支持任务切分,并行
- 多种输出方案
多模态评测工具
高质量评测基准社区CompassHub
- 可以看到各个数据集的评测结果
- 自研了很多数据集
- 数学
- 模型反思能力
- 比如MathBench,区分数学难度梯度
- 比如CIBench,针对不同变成语言,有不同的常用库
- 比如T-Eval,测试模型调用工具的能力
合作体系
- 金融、法律、中文医疗
- 持续接受意见,持续改进,积极反馈