书生·浦语大模型实战营笔记 06

最新推荐文章于 2024-07-21 07:44:54 发布

维数灾难终结者

最新推荐文章于 2024-07-21 07:44:54 发布

阅读量450

点赞数 4

文章标签：笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48006518/article/details/136164966

版权

本文探讨了OpenCompass在大模型评测中的应用，包括评测InternLM2-Chat-7B模型的性能，强调了评测模型的必要性、方法（如自动化与人机交互）以及OpenCompass的6大维度评测框架。同时，文章指出了当前评测领域的挑战，如缺乏高质量中文评测集和高成本的人工测试。

摘要由CSDN通过智能技术生成

OpenCompass 大模型评测

目录

OpenCompass 能力框架

大模型评测领域的挑战

作业

使用 OpenCompass 评测 InternLM2-Chat-7B 模型在 C-Eval 数据集上的性能

（结果中有部分数据缺失，根据 debug 显示，可能是huggingface模型加载或开发机存储空间不足的问题）

笔记

模型评测

- 为什么需要评测
模型的类型众多（text-to-text, text-to-task, text-to-image, text-to-video, text-to-3D）,需要有一个相对客观公平统一的框架来判断其生成质量
- 模型选型
知道模型的边界在哪里
- 模型能力提升
- 真实应用场景效果评测

- 需要评测什么
- 知识、推理、语言
传统 NLP 任务
- 长文本、智能体、多轮对话
LLM 评测
- 情感、认知、价值观

- 如何评测大语言模型
大模型可以分为基座模型和对话模型（经过指令微调的模型）
- 自动化客观评测
- 人机交互评测
人类评价
- 基于大模型的大模型评测
使用模型评价，如 JudgeLM
- 基于提示词工程
使用不同的 Prompt，提问同一个问题，观察回答是否一致，以此检验模型对 Prompt 的敏感性，也即模型问答的鲁棒性

OpenCompass 能力框架

- 6大维度，100+评测集，50万+评测题目
- 适配任意形式的模型
- 并行设计处理
- 模型榜单
- MMBench
- LawBench
- MedBench

大模型评测领域的挑战

- 缺少高质量中文评测集
- 难以准确提取答案
- 能力维度不足
- 测试集混入训练集
- 人工测试成本高昂

维数灾难终结者

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
书生·浦语大模型实战营笔记 06

模型的类型众多（text-to-text, text-to-task, text-to-image, text-to-video, text-to-3D）,需要有一个相对客观公平统一的框架来判断其生成质量。使用不同的 Prompt，提问同一个问题，观察回答是否一致，以此检验模型对 Prompt 的敏感性，也即模型问答的鲁棒性。大模型可以分为基座模型和对话模型（经过指令微调的模型）- 6大维度，100+评测集，50万+评测题目。- 基于大模型的大模型评测。- 如何评测大语言模型。- 适配任意形式的模型。
复制链接

扫一扫

维数灾难终结者 CSDN认证博客专家 CSDN认证企业博客

码龄4年

6: 原创

145万+: 周排名

18万+: 总排名

3675: 访问

: 等级

131: 积分

53: 粉丝

69: 获赞

7: 评论

89: 收藏

私信

关注

热门文章

最新评论

书生·浦语大模型实战营笔记 06
CSDN-Ada助手: 恭喜用户写出了第6篇博客！看来书生·浦语大模型实战营的学习成果丰硕啊！希望您继续坚持创作，分享更多学习心得和经验。或许下一步可以尝试结合实际案例，进一步深入探讨模型应用的具体场景，这样更能让读者受益匪浅。期待您的下一篇作品！
书生·浦语大模型实战营笔记 05
CSDN-Ada助手: 恭喜您持续创作，第5篇博客内容丰富，让读者能够深入了解浦语大模型实战营的相关知识。希望您在接下来的创作中，可以加入一些个人的见解和心得体会，这样可以更好地吸引读者的注意。期待您的下一篇作品，继续加油！
书生·浦语大模型实战营笔记 04
CSDN-Ada助手: 恭喜作者持续更新博客，分享浦语大模型实战营的学习笔记。希望您能够继续保持创作的热情，不断学习和总结，为读者提供更多有价值的内容。建议在下一篇博客中，可以结合个人实战经验，分享一些具体的案例分析或者技术解决方案，让读者能够更直观地感受到您的学习成果。期待您的精彩分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
书生·浦语大模型实战营笔记 02
征途黯然.: I knew nothing about 书生浦语大模型实战营笔记02 before, but after reading this article, I have a deeper understanding.
书生·浦语大模型实战营笔记 03
CSDN-Ada助手: 恭喜您写下了第三篇博客！标题为“书生·浦语大模型实战营笔记 03”，非常吸引人。您的坚持和持续创作真是令人佩服。在这篇博客中，您一定分享了有关浦语大模型实战营的宝贵经验和心得。接下来，我希望您能继续保持这种积极的创作状态并坚持分享，毕竟您的经验对于其他读者来说也是非常有价值的。如果可能的话，您可以考虑分享一些具体的实战案例或者深入分析一些相关的技术细节，这样能够更好地帮助我们理解和应用浦语大模型。我期待着您下一篇博客的发布，谢谢！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。