书生大模型 - 基础岛 - 第六关 - OpenCompass应用

最新推荐文章于 2024-08-13 00:05:10 发布

头部玩家

最新推荐文章于 2024-08-13 00:05:10 发布

阅读量193

点赞数 3

文章标签： AIGC

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45464374/article/details/141122241

版权

OpenCompass 目前是当前开源评测中最全面、影响力最大的网站，社区活跃度和整体公认度较高，经常发现各个模型和其他开源组织都使用OpenCompass评测，提供了一站式的模型评测工具全栈能力，通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化

1. 配置准备，包含数据集准备、模型准备，较为简单的是有标准答案客观评测的比对，而难度较高的是需要人类或者模型的主管评测比对，还需要设置评测模型（GPT-4）这种模型来进行高阶准备；配置项当中还有一项比较重要的是并行推理，由于评测题非常多，用时较久并行推理就显得比较重要。

本测试集使用Ceval 评测，主要是高中和大学的各科评测题，60个左右评测集，每个测试集包含20~200个题目不等，考虑模型推理速度，所以这些题目数目还是很多的。

2. 配置好后进行推理，花费了接近5个小时左右，10%的GPU, 推理速度还是比较慢。

3. 评测结果，都进行了百分制归一化，百分即是满分。

4. 评测题目一瞥，客观题目，主要是选择题和填空题居多。

5. 未来方向：

（1）是自己构建评测集，由于存在数据污染问题，训练的时候对测试题目都进行了训练，考虑到实际场景应用，需要自己构建评测集，这一点要全流程贯穿，考虑模型配置和数据集配置；

（2）主观题评测，如何构建主观题评测。

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
书生大模型 - 基础岛 - 第六关 - OpenCompass应用

1. 配置准备，包含数据集准备、模型准备，较为简单的是有标准答案客观评测的比对，而难度较高的是需要人类或者模型的主管评测比对，还需要设置评测模型（GPT-4）这种模型来进行高阶准备；（1）是自己构建评测集，由于存在数据污染问题，训练的时候对测试题目都进行了训练，考虑到实际场景应用，需要自己构建评测集，这一点要全流程贯穿，考虑模型配置和数据集配置；本测试集使用Ceval 评测，主要是高中和大学的各科评测题，60个左右评测集，每个测试集包含20~200个题目不等，考虑模型推理速度，所以这些题目数目还是很多的。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。