1.为什么需要评测?
1.模型选型
2.模型能力提升
3.真实应用场景效果评测
2.我们需要测什么?
1.知识,推理,语言
2.长文本,智能体,多轮对话
3.情感,认知,价值观
3.怎么样测试大语言模型?
1.自动化客观评测
2.人机交互评测
3.基于大模型的大模型评测
4.主流大模型评测框架
5.OpenCompass能力框架
1.开源评测体系
2.评测平台
3.平台架构
4.模型支持
5.评测流水线设计
6.大模型能力对比
7.前沿探索(多模态)
8.前沿领域(法律领域)
9.前沿领域(医疗领域)
10.挑战
.png]]
6.作业
1.基础作业:使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集
上的性能
2.进阶作业:python run.py --datasets ceval_gen --hf-path
../quant_output/ --tokenizer-path ../quant_output/ --tokenizer-kwargs
padding_side='left' truncation='left' trust_remote_code=True --model-
kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --
max-out-len 16 --batch-size 4 --num-gpus 1 --debug