第七课课程笔记 OpenCompass大模型评测

_Y_M_Y_

已于 2024-04-21 15:20:57 修改

阅读量444

点赞数 5

文章标签：笔记语言模型

于 2024-04-21 15:18:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44555688/article/details/138035054

版权

本文讨论了OpenCompass在促进大模型发展中的作用，包括多维度评测、性能评测挑战、开源历程、评测方法（主观与客观）、以及全栈工具链如CompassK和CompassHub。它强调了质量基准、全面性、成本控制和合作体系在模型评估中的重要性。

摘要由CSDN通过智能技术生成

视频链接
 课程文档
 OpenCompass官网

背景

通过能力评测促进模型发展

面向未来，拓展能力维度。多维度评测，如数学、复杂推理、逻辑推理、代码和智能体等等。
扎根通用能力，聚焦垂直行业。可以结合行业知识和规范，评估模型在行业内的适用性。
高质量中文基准。促进中文社区的的大模型发展。
性能评测，反哺能力迭代。发现模型不足，针对性研究提升策略。

大语言模型评测面临的挑战

全面性。应用场景多，能力进化快。
评测成本。算力资源贵，人工打分更贵。
数据污染。海量预料会包含测试集内容。
鲁棒性。

开源历程

2023年5月1日发布
2024年1月30日发布2.0版本 OpenCompass2.0
广泛应用于头部大模型企业和科研机构

我们如何评测大模型

根据模型的类别，然后设定不同的评测方法

根据评测方式，划分为客观评测和主观评测

主观评测有人工评价（很贵）和模型评价

提示词工程。提示词给得更具体，真实反映模型性能，防止因提示词太模糊导致模型分数偏低。
小样本学习、思维链操作，让题目变得更好。
长文本评测。测试大模型在长文本中记住细节内容的能力。

中立全面的性能榜单 CompassRank

大语言和多模态

大模型评测全栈工具链CompassK

支持更换模型推理后端，提高模型推理速度

OpenCompass评测流水线

支持任务切分，并行
多种输出方案

多模态评测工具

高质量评测基准社区CompassHub

可以看到各个数据集的评测结果

自研了很多数据集
- 数学
- 模型反思能力

比如MathBench，区分数学难度梯度

比如CIBench，针对不同变成语言，有不同的常用库

比如T-Eval，测试模型调用工具的能力

合作体系

金融、法律、中文医疗

持续接受意见，持续改进，积极反馈

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

_Y_M_Y_ CSDN认证博客专家 CSDN认证企业博客

码龄6年

27: 原创

125万+: 周排名

7万+: 总排名

1万+: 访问

: 等级

418: 积分

126: 粉丝

146: 获赞

8: 评论

107: 收藏

私信

关注

热门文章

最新评论

第四课课程笔记 XTuner 微调 LLM：1.8B、多模态、Agent
普通网友: 大佬的文章写的太精辟了让我深刻了解了这篇文章的精髓谢谢大佬分享，希望继续创作优质博文。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
第四课课程笔记 XTuner 微调 LLM：1.8B、多模态、Agent
普通网友: 阅读这篇博文真是一次愉快的体验！作者的文字真是动人心弦，语言精准而生动。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
第七课课程笔记 OpenCompass大模型评测
CSDN-Ada助手: 恭喜用户撰写第12篇博客！标题“第七课课程笔记 OpenCompass大模型评测”听起来很有深度和挑战性。希望您能继续保持创作的热情和努力，为读者带来更多有价值的内容。或许在下一篇博客中，可以分享一些自己的实践经验或者对于大模型评测的一些新见解，让读者有更多启发和思考。期待您的下一篇作品！祝您创作顺利！
第七课作业 OpenCompass实操
CSDN-Ada助手: 恭喜您在第七课作业中成功实操OpenCompass！持续创作是非常重要的，您的努力让您不断进步。在下一篇博客中，也许可以分享一些关于OpenCompass的实操经验和技巧，让更多读者受益。祝您创作顺利，期待您更多精彩的作品！
第四课课程笔记 XTuner 微调 LLM：1.8B、多模态、Agent
CSDN-Ada助手: 恭喜您写了第8篇博客！标题中提到的XTuner 微调 LLM：1.8B、多模态、Agent听起来非常有趣。希望您能继续坚持创作，分享更多有价值的内容。下一步可以考虑探讨一些实际案例或者应用场景，以便读者更好地理解和应用您所分享的知识。期待您的下一篇作品！祝您创作顺利！

大家在看

深入理解拓展运算符与剩余运算符：功能、用法与区别

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。