一、大模型评测的重要性以及评测所面临的挑战,并详细讲解了司南评测体系2.0的实现方法和特点。
1、介绍大模型评测的重要性
2、需要聚焦垂直领域进行模型评测
3、欧拉评测体系已广泛用于头部研究机构,是唯一国产评测体系
二、open pass评测工具的全面升级,包括工具链、基准、榜单、自定义数据集和多模态评测等功能,以及开放共享的基准社区和自研数据集。
1、基于社区力量,汇集工具基准和榜单三位一体,定期更新榜单和模型性能
2、支持自定义模型和数据集,切分任务并行化,高效利用资源/3、自研数据集,如max bench和critical bench,注重梯度难度和各种知识能力的评测
三、如何使用OpenAI的API进行自然语言处理任务的评测,包括评测数据集、模型路径和参数的指定,以及结果的查看和总结。
1、需要指定数据集、模型路径和token net路径
2、指定batch size、GPU个数和参数
3、命令行和Python方式启动评测,结果保存在相应文件夹内
四、Open Compass的执行流程和自建数据集的方法,包括PARTITIONER、open fl、runner、SUMMARIZER和tasks等文件的关注点,以及如何进行分片和执行任务。
1、需要关注PARTITIONER、RUNNER、SUMMARIZER和TASKS文件
2、实现新数据集需要修改CONFIG、DATASET和PY文件,并返回一个包含dict和REVT的list
3、在PY文件中需要import新实现的类,才能完成数据集的实现
五、如何实现一个新的数据集,需要修改三个地方,包括新增一个类、在Python中输入数据和实现数据集的逻辑。详细讲解了数据集的格式和实现方法。
1、需要修改三个地方,包括类名和import语句
2、实现数据集的读取和格式化,最后返回一个DATASET dict
3、遍历所有子集,读取相应文件并拼