书生大模型 - 基础岛 - 第六关 - OpenCompass应用

OpenCompass 目前是当前开源评测中最全面、影响力最大的网站,社区活跃度和整体公认度较高,经常发现各个模型和其他开源组织都使用OpenCompass评测,提供了一站式的模型评测工具全栈能力,通常包括以下几个阶段:配置 -> 推理 -> 评估 -> 可视化

1. 配置准备,包含数据集准备、模型准备,较为简单的是有标准答案客观评测的比对,而难度较高的是需要人类或者模型的主管评测比对,还需要设置评测模型(GPT-4)这种模型来进行高阶准备;配置项当中还有一项比较重要的是并行推理,由于评测题非常多,用时较久并行推理就显得比较重要。

本测试集使用Ceval 评测,主要是高中和大学的各科评测题,60个左右评测集,每个测试集包含20~200个题目不等,考虑模型推理速度,所以这些题目数目还是很多的。

2. 配置好后进行推理,花费了接近5个小时左右,10%的GPU, 推理速度还是比较慢。

3. 评测结果,都进行了百分制归一化,百分即是满分。

4. 评测题目一瞥,客观题目,主要是选择题和填空题居多。

5. 未来方向:

(1)是自己构建评测集,由于存在数据污染问题,训练的时候对测试题目都进行了训练,考虑到实际场景应用,需要自己构建评测集,这一点要全流程贯穿,考虑模型配置和数据集配置;

(2)主观题评测,如何构建主观题评测。

  • 3
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值