第七课课程笔记 OpenCompass大模型评测

本文讨论了OpenCompass在促进大模型发展中的作用,包括多维度评测、性能评测挑战、开源历程、评测方法(主观与客观)、以及全栈工具链如CompassK和CompassHub。它强调了质量基准、全面性、成本控制和合作体系在模型评估中的重要性。
摘要由CSDN通过智能技术生成

视频链接
课程文档
OpenCompass官网

背景

通过能力评测促进模型发展

  • 面向未来,拓展能力维度。多维度评测,如数学、复杂推理、逻辑推理、代码和智能体等等。
  • 扎根通用能力,聚焦垂直行业。可以结合行业知识和规范,评估模型在行业内的适用性。
  • 高质量中文基准。促进中文社区的的大模型发展。
  • 性能评测,反哺能力迭代。发现模型不足,针对性研究提升策略。

大语言模型评测面临的挑战

  • 全面性。应用场景多,能力进化快。
  • 评测成本。算力资源贵,人工打分更贵。
  • 数据污染。海量预料会包含测试集内容。
  • 鲁棒性。

image.png
开源历程

  • 2023年5月1日发布
  • 2024年1月30日发布2.0版本 OpenCompass2.0
  • 广泛应用于头部大模型企业和科研机构

我们如何评测大模型

根据模型的类别,然后设定不同的评测方法
image.png
根据评测方式,划分为客观评测和主观评测

  • 主观评测有人工评价(很贵)和模型评价

image.png

  • 提示词工程。提示词给得更具体,真实反映模型性能,防止因提示词太模糊导致模型分数偏低。
  • 小样本学习、思维链操作,让题目变得更好。
  • 长文本评测。测试大模型在长文本中记住细节内容的能力。

image.png

中立全面的性能榜单 CompassRank

  • 大语言和多模态

image.png

大模型评测全栈工具链CompassK

  • 支持更换模型推理后端,提高模型推理速度

image.png
OpenCompass评测流水线

  • 支持任务切分,并行
  • 多种输出方案

image.png
多模态评测工具
image.png

高质量评测基准社区CompassHub

  • 可以看到各个数据集的评测结果

image.png
image.png

  • 自研了很多数据集
    • 数学
    • 模型反思能力

image.png

  • 比如MathBench,区分数学难度梯度

image.png

  • 比如CIBench,针对不同变成语言,有不同的常用库

image.png

  • 比如T-Eval,测试模型调用工具的能力

image.png

合作体系

  • 金融、法律、中文医疗

image.png

  • 持续接受意见,持续改进,积极反馈

image.png

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值