OpenCompass 大模型评测实战

OpenCompass

1. 项目介绍

OpenCompass是一个开源的开源评测框架,可以进行主观与客观评测。客观评测可以根据答案匹配度判断分数,因此较为简单,客观评价可以快速进行。主观评价可以使用人工评分,也可以使用机器学习评分,当有先进模型A时可以使用A模型给B模型打分,如果没有先进的模型也可以用竞争的方式打分,比如用A模型同时对BC打分,用相对准确度替代绝对准确度。

在这里插入图片描述

2.使用

由于流水线的存在OpenCompass可以进行并行评测加速大模型与大数据集的评估速度。
在这里插入图片描述

1.命令行形式

对internlm-chat-7b在ceval 数据集上打分

--datasets ceval_gen \
--hf-path /share/temp/model_repos/internlm-chat-7b/ \  # HuggingFace 模型路径
--tokenizer-path /share/temp/model_repos/internlm-chat-7b/ \  # HuggingFace tokenizer 路径(如果与模型路径相同,可以省略)
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \  # 构建 tokenizer 的参数
--model-kwargs device_map='auto' trust_remote_code=True \  # 构建模型的参数
--max-seq-len 2048 \  # 模型可以接受的最大序列长度
--max-out-len 16 \  # 生成的最大 token 数
--batch-size 2  \  # 批量大小
--num-gpus 1  # 运行模型所需的 GPU 数量
--debug

2.python形式

对opt125m, opt350m两个模型在siqa_datasets, winograd_datasets两个数据 集上进行评测。

from mmengine.config import read_base

with read_base():
    from .datasets.siqa.siqa_gen import siqa_datasets
    from .datasets.winograd.winograd_ppl import winograd_datasets
    from .models.opt.hf_opt_125m import opt125m
    from .models.opt.hf_opt_350m import opt350m

datasets = [*siqa_datasets, *winograd_datasets]
models = [opt125m, opt350m]

Github地址https://github.com/open-compass/opencompass

  • 5
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值