书生·浦语集训营OpenCompass笔记

本文探讨了如何通过能力评测促进模型发展,强调了全面性、成本和数据污染等挑战,以及CompassKit提供的多模态评测工具和代码评测工具在实践中的应用,展示了如何安装和使用OpenCompass进行模型测评.
摘要由CSDN通过智能技术生成

笔记

如何通过能力评测促进模型发展

  • 面向未来拓展能力维度:评测体系需增加新能力维度如数学、复杂推理、逻辑推理、代码和智能体等,以全面评估模型性能。
  • 扎根通用能力聚焦垂直行业:在医疗、金融、法律等专业领域,评测需结合行业知识和规范,以评估模型等行业适用性。
  • 高质量中文基准:针对中文场景,需要开发能准确评估其能力的中文评测基准,促进中文社区的大模型发展。
  • 性能测评反哺能力迭代:通过深入分析评测性能,探索模型能力形成机制,发现模型不足,研究针对性提升策略。

大语言模型评测中的挑战

  • 全面性:大模型应用场景千变万化,模型能力演进迅速,如何设计和构造可扩展的能力维度体系。
  • 评测成本:评测数十万道题需要大量算力资源,基于人工打分的主观测评成本高昂。
  • 数据污染:海量语料不可避免带来评测集污染,亟需可靠的数据污染检测技术,如何设计动态可更新的高质量评测基准。

CompassKit:大模型评测全栈工具链

  • VLMEvalKit多模态评测工具:一站式多模态评测工具,支持主流多模态模型和数据集,助力社区比较不同多模态模型在各种任务上的性能。
  • Code-Evaluator代码评测工具:提供基于docker的统一编程语言评测环境,确保代码能力评测的稳定性和可复线性。
  • MixtralKit MoE模型入门工具:为MoE模型初学者提供学习资料、模型架构解析、推理与评测等入门工具。

实战

studio-conda -o internlm-base -t opencompass
source activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .

安装环境
请添加图片描述

成功安装
在这里插入图片描述

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

接着解压测评数据集
在这里插入图片描述

并启动测评python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug
在这里插入图片描述

查看配置时发现缺少依赖库
在这里插入图片描述

接着安装解决
还缺少mmengine
安装后成功解决
在这里插入图片描述

看来缺的不少。。。
在这里插入图片描述

决定安装requirements.txtpip install -r requirements.txt
在这里插入图片描述

在debug模式下评测 InternLM2-Chat-1.8B 模型
在这里插入图片描述

看样子还缺个protobuf
在这里插入图片描述

安装后报错
在这里插入图片描述

把教程上有的没有的坑全踩了一遍。。。
不管咋的还是成啦!
在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LTAA

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值