一、笔记
具体课件参照tutorial/opencompass/opencompass_tutorial.md at main · InternLM/tutorial (github.com)
1、介绍
OpenCompass评测对象主要为语言大模型和多模态大模型,语言大模型评测的模型类型包括基座模型(如GPT-3,LLaMA)和对话模型(ChatGPT,书生浦语),其通用能力涵盖学科综合能力、知识能力、语言能力、理解能力、推理能力、安全能力,共计六大维度构造立体全面的模型能力评价体系,采取客观评测与主观评测相结合的方法进行评测。
2、运行步骤
运行评测工具的步骤配置 -> 推理 -> 评估 -> 可视化如下:
二、作业
运行命令如下,得到评测结果(截图)
python run.py
--datasets ceval_gen
--hf-path /share/temp/model_repos/internlm-chat-7b/
--tokenizer-path /share/temp/model_repos/internlm-chat-7b/
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True
--model-kwargs trust_remote_code=True device_map='auto'
--max-seq-len 2048 --max-out-len 16
--batch-size 4
--num-gpus 1
--debug