OpenCompass 评测 InternLM-1.8B 实践
任务目标:使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 ceval 数据集上的性能,记录复现过程并截图。
1.设置创建一个新的虚拟环境,安装对应的环境。
2.解压评测数据集到指定文件夹。
3.列出所有跟 InternLM 及 C-Eval 相关的配置,和预计的配置进行对比。
4.设计对应的python脚本hf_internlm2_chat_1_8b.py,然后在确保数据集后运行脚本。
5.最后输出OpenCompass的测评结果。
6.使用配置文件修改参数法进行评测
7.OpenCompass 还允许用户在配置文件中编写实验的完整配置,并通过 run.py 直接运行