第七课-OpenCompass 大模型评测实战笔记

weixin_51314534

已于 2024-04-25 09:24:44 修改

阅读量381

点赞数 4

文章标签：人工智能

于 2024-04-25 09:21:20 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51314534/article/details/138175952

版权

OpenCompass 大模型评测实战

如何通过能力评测促进模型发展?

面向未来拓展能力维度：评测体系需增加新能力维度如数学、复杂推理、逻辑推理、代码和智能体等，以全面评估模型性能。
扎根通用能力聚焦垂直行业：在医疗、金融、法律等专业领域，评测需结合行业知识和规范，以评估模型的行业适用性。
高质量中文基准：针对中文场景，需要开发能准确评估其能力的中文评测基准，促进中文社区的大模型发展。
性能评测反哺能力迭代：通过深入分析评测性能，探索模型能力形成机制，发现模型不足，研究针对性提升策略。

大语言模型评测中的挑战

全面性：大模型应用场景干变万化；模型能力演进迅速；如和设计和构造可扩展的能力维度体系
数据污染：海量语料不可避免带来评测集污染；亟需可靠的数据污染检测技术；如何设计可动态更新的高质量评测基准
评测成本：评测数十万道题需要大量算力资源；基于人工打分的主观评测成本高昂
鲁棒性：大模型对提示词十分敏感；多次采样情况下模型性能不稳定

OpenCompass 2.0 司南大模型评测体系开源历程

5月1日：完成Alpha版本开发支持千亿参数语言大模型高效评测
7月6日：OpenCompass正式开源学术评测支持最亮善的评测工具之一，支持5大能力维度，70个数据集，40万评测题目
8月18日：opencompass 数据和性能对比上线支持100+开源模配的多维度性对比
9月7日：支持多编程语言代码评测，发布稳定可复现代码评测镜像提供多编程语言能力分析和对比
10月26日：联合南京大学推出大根型司法球力评测基准构建多层载力体系助力法律场景能力分析
12月1日：发布多模态评测工具套件VLMEvalKit支持包括Gemini、GPT-4V尊商业模型评测支持
2024年1月30日：Opencompass 2.0司南大模型评测体系正式发布

OpenCompass 助力大模型产业发展和学术研究

广泛应用于头部大模型企业和科研机构
获得 Meta 官方推荐唯一国产大模型评测体系
社区支持最完善的评测体系之一 100+ 评测集 50万+ 题目

如何评测大模型 ?

模型类别

基座模型：海量数据无监督训练(Base)

公开权重的开源模型：使用GPU/推理加速卡进行本地推理

对话模型：指令数据有监督微调(SFT)；人类偏好对齐(RLHF)

API 模型：发送网络请求获取回复

客观评测与主观评测

客观问答题

客观选择题

开放式主观问答

提示词工程

长文本评测

汇集社区力量:工具-基准-榜单三位一体

评测集社区CompassHub：提供高时效性高质量评测集
权威性能榜单CompassRank：发布权威榜单洞悉行业趋势
全栈评测工具Compasskit：支撑高效评测支持能力分析

CompassKit:大模型评测全栈工具链

OpenCompass 核心代码库功能全面升级

数据污染检查：提供多种数据污染检测方法；支持包括GSM-8K,MMLU等主流数据集上的污染检测
更丰富的模型推理接入：支持近20个商业模型API；支持LMDeploy、vLLMLighLLM等推理后端

长文本能力评测：支持1M长度大海捞针测试；支持多个主流长文本评测基准
中英文双语主观评测：支持基于大模型评价的主观评测；提供模型打分、模型对战多种能力；灵活切换上百种评价模型

能力维度全面升级

基础能力：考察大模型在如语言、知识、理解、数学、代码、推理等维度上的基本功；语言、知识、理解、数学、代码、推理
综合能力：考察大模型综合运用各类知识、理解与分析、多步推理、代码工具等来完成复杂任务的能力水平；考试、对话、创作、智能体、评价、长文本

夯实基础:自研高质量大模型评测基准

MathBench 多层次数学能力评测基准
CriticBench 多维度的LLM反思能力评估基准
T-Eval 大模型细粒度工具能力评测基准
CreationBench 多场景中文创作能力评测基准
F-Eval 大模型基础能力评测基准
CIBench 代码解释器能力评测基准

群策群力:携手行业领先共建繁荣生态

OpenFinData全场景金融评测基准
LawBench大模型司法能力基准
MedBench中文医疗大模型评测基准
SecBench网络安全评测基准

weixin_51314534

关注

4
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
第七课-OpenCompass 大模型评测实战笔记

对话模型：指令数据有监督微调(SFT)；人类偏好对齐(RLHF)公开权重的开源模型：使用GPU/推理加速卡进行本地推理。OpenCompass 核心代码库功能全面升级。基座模型：海量数据无监督训练(Base)API 模型：发送网络请求获取回复。夯实基础:自研高质量大模型评测基准。群策群力:携手行业领先共建繁荣生态。
复制链接

扫一扫

weixin_51314534

博客等级

码龄4年

12
原创

133
点赞

145
收藏

98
粉丝

关注

私信

热门文章

最新评论

第七课-OpenCompass 大模型评测实战笔记
CSDN-Ada助手: 恭喜您写了第11篇博客！看到您分享了关于OpenCompass 大模型评测实战的笔记，让我受益匪浅。希望您能继续保持写作的热情和创作的动力，分享更多有价值的内容。或许下一步可以尝试结合实际案例，加入更多自己的见解和思考，让读者更加深入地了解您的观点。期待您的下一篇作品！祝好！
第七课-OpenCompass 大模型评测实战作业
CSDN-Ada助手: 恭喜您完成了第12篇博客《第七课-OpenCompass 大模型评测实战作业》，内容十分精彩！您的持续创作展现了对技术的热爱与追求，为读者提供了宝贵的学习资源。接下来，建议您可以考虑深入分析实战经验，分享更多自己的心得体会，或者结合实际案例进行探讨，让读者更好地理解和应用所学知识。期待您更多的精彩内容，加油！
第五课-LMDeploy 量化部署 LLM-VLM 实践笔记
CSDN-Ada助手: 恭喜您发布了第7篇博客！看到您不断分享LMDeploy 量化部署 LLM-VLM 实践笔记，真是让人佩服。希望您能继续坚持创作，不断提升自己的写作水平和深度，也可以尝试结合一些实际案例或者个人心得体会，让读者更易于理解和参考。期待您的下一篇作品！祝您写作顺利，越来越好！
第五课-LMDeploy 量化部署 LLM-VLM 实践作业
CSDN-Ada助手: 恭喜您发布了第8篇博客！看到您在LMDeploy量化部署和LLM-VLM实践作业上的探索，让人深感佩服。不过，也许您可以考虑在下一篇博客中加入更多实际案例分析或者对比研究，这样可以让读者更深入地了解您的研究成果。希望您能继续保持创作热情，期待您的下一篇精彩文章！
第三课-茴香豆：搭建你的 RAG 智能助理笔记（含作业）
CSDN-Ada助手: 恭喜用户写下第四篇博客！不断分享学习成果真是令人钦佩。对于搭建 RAG 智能助理笔记的内容，我觉得您可以考虑在下一篇博客中深入讨论如何优化使用茴香豆，或者分享一些实际案例以帮助读者更好地理解。希望您能继续保持创作的热情，不断进步！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。