第七节笔记

一、大模型评测的重要性以及评测所面临的挑战,并详细讲解了司南评测体系2.0的实现方法和特点。
1、介绍大模型评测的重要性
2、需要聚焦垂直领域进行模型评测
3、欧拉评测体系已广泛用于头部研究机构,是唯一国产评测体系
二、open pass评测工具的全面升级,包括工具链、基准、榜单、自定义数据集和多模态评测等功能,以及开放共享的基准社区和自研数据集。
1、基于社区力量,汇集工具基准和榜单三位一体,定期更新榜单和模型性能
2、支持自定义模型和数据集,切分任务并行化,高效利用资源/3、自研数据集,如max bench和critical bench,注重梯度难度和各种知识能力的评测
三、如何使用OpenAI的API进行自然语言处理任务的评测,包括评测数据集、模型路径和参数的指定,以及结果的查看和总结。
1、需要指定数据集、模型路径和token net路径
2、指定batch size、GPU个数和参数

3、命令行和Python方式启动评测,结果保存在相应文件夹内
四、Open Compass的执行流程和自建数据集的方法,包括PARTITIONER、open fl、runner、SUMMARIZER和tasks等文件的关注点,以及如何进行分片和执行任务。

1、需要关注PARTITIONER、RUNNER、SUMMARIZER和TASKS文件
2、实现新数据集需要修改CONFIG、DATASET和PY文件,并返回一个包含dict和REVT的list

3、在PY文件中需要import新实现的类,才能完成数据集的实现
五、如何实现一个新的数据集,需要修改三个地方,包括新增一个类、在Python中输入数据和实现数据集的逻辑。详细讲解了数据集的格式和实现方法。
1、需要修改三个地方,包括类名和import语句
2、实现数据集的读取和格式化,最后返回一个DATASET dict
3、遍历所有子集,读取相应文件并拼

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值