参考文档
视频链接
四个方面:启动方式、运行逻辑、如何支持自建数据集、其他功能
Ceval评测尝试
1、环境安装完成(耗时较长),数据解压完成
python tools/list_configs.py internlm ceval
demo运行显示缺少依赖- 发现是
pip install -e .
安装不成功,需要用pip install -r requirements.txt
重新安装依赖。
2、查看支持的数据集和模型
- 提前输入
export MKL_SERVICE_FORCE_INTEL=1
设置环境变量,防止出现报错
3、启动评测
- 报错
- 中止并运行
pip install protobuf
- 重新评测
- 终端命令参数较多,每次执行会有一个文件,
--debug
打开表示错误信息会在terminal显示 - 也可以
python run.py configs/XXX.py
,把所有参数放在一个config里 - 支持多个任务一起做,分发任务机制。
- 顺利评测中
- 评测完成
自建数据集
要修改的内容,参考文档说明
- dataset对应文件及初始化文件
- config中的dataset对应文件
有很多已经实现的数据集,可以直接模仿
- 比如要实现主观评测,可以模仿eval_subjective的config
- 比如长文本大海捞针评测,可以模仿eval_needbench
- 参考文档也是内置的,官网也有
有很多已经实现的工具
- tools/list_configs可以查看当前已经实现的config,用检测新建数据集是否成功
根据作业要求在opencompass新建一个数据集,上传了md文件
- 注意模板中yaml格式中的大括号不需要保留,如
dimension:
- {}
- {examination | language | knowledge | understanding | reasoning | long-context | safety | code 八选一或者任意填}
表达为
dimension:
- knowledge
即可,参考yaml格式介绍
最终自建README_OPENCOMPASS.md如下
---
name: 中文建筑知识(实战营测试)
desc: 中文建筑知识数据集是一个专注于建筑领域知识的中文数据集。
language:
- cn
dimension:
- knowledge
sub_dimension:
- language
website: https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.md
github: https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.md
paper: https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.md
release_date: 2024-04-21
tag:
- text
download_url: https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.md
cn:
name: 中文建筑知识数据集是一个专注于建筑领域知识的中文数据集。
desc: 中文建筑知识(实战营测试)
---
## Introduction
该数据集为InternLM2实战营作业测试用,暂时为空。可用于评价模型在建筑领域的知识问答水平。包含建筑大类下的各学科全周期知识,涵盖规划、建筑设计、结构设计、桥梁设计、施工和运维等等。
## Meta Data
待补充
## Example
待补充
## Citation
待补充
网页效果如下,网址