第 6 节 OpenCompass 大模型评测

最新推荐文章于 2024-08-07 18:15:27 发布

yxg2012_04_06

最新推荐文章于 2024-08-07 18:15:27 发布

阅读量371

点赞数 8

文章标签：语言模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yxg2012_04_06/article/details/136159250

版权

本文探讨了大语言模型评测的重要性和内容，包括模型选型、能力提升、评测领域（如知识推理、多轮对话等）、测试方法（自动化与人机交互）、OpenCompass框架以及具体案例如C-Eval数据集的评估。文章还涵盖了前沿领域的应用，如法律和医疗，以及实践作业示例。

摘要由CSDN通过智能技术生成

1.为什么需要评测？

1.模型选型
2.模型能力提升
3.真实应用场景效果评测

2.我们需要测什么？

1.知识，推理，语言
2.长文本，智能体，多轮对话
3.情感，认知，价值观

3.怎么样测试大语言模型？

1.自动化客观评测
2.人机交互评测
3.基于大模型的大模型评测

4.主流大模型评测框架

在这里插入图片描述

5.OpenCompass能力框架

1.开源评测体系

在这里插入图片描述

2.评测平台

在这里插入图片描述

3.平台架构

在这里插入图片描述

4.模型支持

在这里插入图片描述

5.评测流水线设计

在这里插入图片描述

6.大模型能力对比

在这里插入图片描述

7.前沿探索（多模态）

在这里插入图片描述

8.前沿领域（法律领域）

在这里插入图片描述

9.前沿领域（医疗领域）

在这里插入图片描述

10.挑战

在这里插入图片描述

.png]]

6.作业

1.基础作业：使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集
上的性能

在这里插入图片描述

2.进阶作业：python run.py --datasets ceval_gen --hf-path 
../quant_output/ --tokenizer-path ../quant_output/ --tokenizer-kwargs
 padding_side='left' truncation='left' trust_remote_code=True --model-
 kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --
 max-out-len 16 --batch-size 4 --num-gpus 1 --debug

在这里插入图片描述

关注

8
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

yxg2012_04_06

CSDN认证博客专家 CSDN认证企业博客

码龄13年

28: 原创

1万+: 周排名

4万+: 总排名

1万+: 访问

: 等级

625: 积分

241: 粉丝

346: 获赞

5: 评论

265: 收藏

私信

关注

最新评论

Task03：Sora训练成片
CSDN-Ada助手: 恭喜您完成了第19篇博客“Task03：Sora训练成片”，真是辛苦了！您的持续创作精神令人钦佩，也为我们带来了许多有趣的内容。接下来，或许可以尝试探索更多关于Sora的训练技巧，或者分享一些实践经验，让更多人受益。期待您的下一篇作品，继续加油哦！
Task01：Sora技术路径详解
CSDN-Ada助手: 恭喜用户完成了第17篇博客“Task01：Sora技术路径详解”，内容详实且深入浅出。希望用户能继续保持写作的热情和耐心，不断学习、总结和分享。建议下一步可以尝试结合实际案例或者个人经验，更好地展示Sora技术的应用和实践，期待用户的更多精彩文章！
第 2 节轻松玩转书生·浦语大模型趣味 Demo
CSDN-Ada助手: 恭喜您写下了第12篇博客！标题“第 2 节轻松玩转书生·浦语大模型趣味 Demo”令我非常兴奋。您的创作精神和持续努力值得赞赏。通过这个有趣的Demo，您带领读者轻松玩转书生浦语大模型，不仅展示了您的技术实力，也为我们带来了娱乐和启发。在下一步的创作中，我谨以谦虚的语气提出一些建议。或许您可以考虑深入探索浦语大模型的其他功能或应用场景，或者分享一些与书生相关的有趣故事或实用技巧。此外，您还可以结合读者的反馈和需求，为他们提供更多实用的指导，以便他们更好地玩转这个模型。期待您的下一篇博客，继续展示您的创造力和才华！
Task10：大模型之环境影响
CSDN-Ada助手: 恭喜博主第10篇博客！看到你不断探讨大模型的环境影响，让人感到非常兴奋。希望你能继续保持创作的热情，探索更多有关大模型环境影响的内容，并结合实际案例进行深入分析，这样可以让读者更好地理解和学习。期待你的下一篇作品！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。