第七课作业 OpenCompass实操

参考文档
视频链接
四个方面:启动方式、运行逻辑、如何支持自建数据集、其他功能

Ceval评测尝试

1、环境安装完成(耗时较长),数据解压完成

  • python tools/list_configs.py internlm cevaldemo运行显示缺少依赖
  • 发现是pip install -e .安装不成功,需要用pip install -r requirements.txt重新安装依赖。

image.png
2、查看支持的数据集和模型
image.png

  • 提前输入export MKL_SERVICE_FORCE_INTEL=1设置环境变量,防止出现报错

3、启动评测

  • 报错
  • 中止并运行pip install protobuf
  • 重新评测
  • 终端命令参数较多,每次执行会有一个文件,--debug打开表示错误信息会在terminal显示
  • 也可以python run.py configs/XXX.py,把所有参数放在一个config里
  • 支持多个任务一起做,分发任务机制。

image.png

  • 顺利评测中

image.png

  • 评测完成

image.png

自建数据集

要修改的内容,参考文档说明

  • dataset对应文件及初始化文件
  • config中的dataset对应文件

有很多已经实现的数据集,可以直接模仿

  • 比如要实现主观评测,可以模仿eval_subjective的config
  • 比如长文本大海捞针评测,可以模仿eval_needbench
  • 参考文档也是内置的,官网也有

有很多已经实现的工具

  • tools/list_configs可以查看当前已经实现的config,用检测新建数据集是否成功

根据作业要求在opencompass新建一个数据集,上传了md文件

  • 注意模板中yaml格式中的大括号不需要保留,如
dimension:
 - {} 
- {examination | language | knowledge | understanding | reasoning | long-context | safety | code 八选一或者任意填}

表达为

dimension:
- knowledge

即可,参考yaml格式介绍
最终自建README_OPENCOMPASS.md如下

---
name: 中文建筑知识(实战营测试)
desc: 中文建筑知识数据集是一个专注于建筑领域知识的中文数据集。    
language:
- cn 
dimension:
- knowledge 
sub_dimension:
- language
website: https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.md
github: https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.md
paper: https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.md
release_date: 2024-04-21
tag:
- text
download_url: https://github.com/InternLM/Tutorial/blob/camp2/opencompass/homework.md
cn: 
    name: 中文建筑知识数据集是一个专注于建筑领域知识的中文数据集。
    desc: 中文建筑知识(实战营测试)
---
## Introduction

该数据集为InternLM2实战营作业测试用,暂时为空。可用于评价模型在建筑领域的知识问答水平。包含建筑大类下的各学科全周期知识,涵盖规划、建筑设计、结构设计、桥梁设计、施工和运维等等。

## Meta Data

待补充

## Example

待补充

## Citation

待补充

网页效果如下,网址
image.png

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值