第七课-OpenCompass 大模型评测实战作业

weixin_51314534

于 2024-04-25 11:21:06 发布

阅读量375

点赞数 7

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51314534/article/details/138183980

版权

本文详细介绍了在OpenCompass中进行模型评估的过程，包括配置模型和数据集、并行推理与评估、以及可视化结果。还提到如何在GPU环境下进行数据准备和启动评测，以及使用--debug模式进行问题排查。

摘要由CSDN通过智能技术生成

基础作业：

概览

在 OpenCompass 中评估一个模型通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化。

配置：这是整个工作流的起点。您需要配置整个评估过程，选择要评估的模型和数据集。此外，还可以选择评估策略、计算后端等，并定义显示结果的方式。
推理与评估：在这个阶段，OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出，而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率，但请注意，如果计算资源有限，这种策略可能会使评测变得更慢。如果需要了解该问题及解决方案，可以参考 FAQ: 效率。
可视化：评估完成后，OpenCompass 将结果整理成易读的表格，并将其保存为 CSV 和 TXT 文件。你也可以激活飞书状态上报功能，此后可以在飞书客户端中及时获得评测状态报告。接下来，我们将展示 OpenCompass 的基础用法，展示书生浦语在 C-Eval 基准任务上的评估。它们的配置文件可以在 configs/eval_demo.py 中找到。

环境配置

面向GPU的环境安装

数据准备

解压评测数据集到 data/ 处

将会在opencompass下看到data文件夹

查看支持的数据集和模型

列出所有跟 internlm 及 ceval 相关的配置

启动评测 (10% A100 8GB 资源)

确保按照上述步骤正确安装 OpenCompass 并准备好数据集后，可以通过以下命令评测 InternLM2-Chat-1.8B 模型在 C-Eval 数据集上的性能。由于 OpenCompass 默认并行启动评估过程，我们可以在第一次运行时以 --debug 模式启动评估，并检查是否存在问题。在 --debug 模式下，任务将按顺序执行，并实时打印输出。

如果一切正常，应该看到屏幕上显示 “Starting inference process”：

评测完成后，将会看到：

weixin_51314534

关注

7
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
第七课-OpenCompass 大模型评测实战作业

确保按照上述步骤正确安装 OpenCompass 并准备好数据集后，可以通过以下命令评测 InternLM2-Chat-1.8B 模型在 C-Eval 数据集上的性能。由于 OpenCompass 默认并行启动评估过程，我们可以在第一次运行时以 --debug 模式启动评估，并检查是否存在问题。在 --debug 模式下，任务将按顺序执行，并实时打印输出。在 OpenCompass 中评估一个模型通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化。解压评测数据集到 data/ 处。
复制链接

扫一扫

weixin_51314534 CSDN认证博客专家 CSDN认证企业博客

码龄4年

12: 原创

151万+: 周排名

10万+: 总排名

6893: 访问

: 等级

263: 积分

98: 粉丝

133: 获赞

5: 评论

145: 收藏

私信

关注

热门文章

最新评论

第七课-OpenCompass 大模型评测实战笔记
CSDN-Ada助手: 恭喜您写了第11篇博客！看到您分享了关于OpenCompass 大模型评测实战的笔记，让我受益匪浅。希望您能继续保持写作的热情和创作的动力，分享更多有价值的内容。或许下一步可以尝试结合实际案例，加入更多自己的见解和思考，让读者更加深入地了解您的观点。期待您的下一篇作品！祝好！
第七课-OpenCompass 大模型评测实战作业
CSDN-Ada助手: 恭喜您完成了第12篇博客《第七课-OpenCompass 大模型评测实战作业》，内容十分精彩！您的持续创作展现了对技术的热爱与追求，为读者提供了宝贵的学习资源。接下来，建议您可以考虑深入分析实战经验，分享更多自己的心得体会，或者结合实际案例进行探讨，让读者更好地理解和应用所学知识。期待您更多的精彩内容，加油！
第五课-LMDeploy 量化部署 LLM-VLM 实践笔记
CSDN-Ada助手: 恭喜您发布了第7篇博客！看到您不断分享LMDeploy 量化部署 LLM-VLM 实践笔记，真是让人佩服。希望您能继续坚持创作，不断提升自己的写作水平和深度，也可以尝试结合一些实际案例或者个人心得体会，让读者更易于理解和参考。期待您的下一篇作品！祝您写作顺利，越来越好！
第五课-LMDeploy 量化部署 LLM-VLM 实践作业
CSDN-Ada助手: 恭喜您发布了第8篇博客！看到您在LMDeploy量化部署和LLM-VLM实践作业上的探索，让人深感佩服。不过，也许您可以考虑在下一篇博客中加入更多实际案例分析或者对比研究，这样可以让读者更深入地了解您的研究成果。希望您能继续保持创作热情，期待您的下一篇精彩文章！
第三课-茴香豆：搭建你的 RAG 智能助理笔记（含作业）
CSDN-Ada助手: 恭喜用户写下第四篇博客！不断分享学习成果真是令人钦佩。对于搭建 RAG 智能助理笔记的内容，我觉得您可以考虑在下一篇博客中深入讨论如何优化使用茴香豆，或者分享一些实际案例以帮助读者更好地理解。希望您能继续保持创作的热情，不断进步！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。