OpenCompass 大模型评测实战
如何通过能力评测促进模型发展?
- 面向未来拓展能力维度:评测体系需增加新能力维度如数学、复杂推理、逻辑推理、代码和智能体等,以全面评估模型性能。
- 扎根通用能力聚焦垂直行业:在医疗、金融、法律等专业领域,评测需结合行业知识和规范,以评估模型的行业适用性。
- 高质量中文基准:针对中文场景,需要开发能准确评估其能力的中文评测基准,促进中文社区的大模型发展。
- 性能评测反哺能力迭代:通过深入分析评测性能,探索模型能力形成机制,发现模型不足,研究针对性提升策略。
大语言模型评测中的挑战
- 全面性:大模型应用场景干变万化;模型能力演进迅速;如和设计和构造可扩展的能力维度体系
- 数据污染:海量语料不可避免带来评测集污染;亟需可靠的数据污染检测技术;如何设计可动态更新的高质量评测基准
- 评测成本:评测数十万道题需要大量算力资源;基于人工打分的主观评测成本高昂
- 鲁棒性:大模型对提示词十分敏感;多次采样情况下模型性能不稳定
OpenCompass 2.0 司南大模型评测体系开源历程
- 5月1日:完成Alpha版本开发支持千亿参数语言大模型高效评测
- 7月6日:OpenCompass正式开源学术评测支持最亮善的评测工具之一,支持5大能力维度,70个数据集,40万评测题目
- 8月18日:opencompass 数据和性能对比上线支持100+开源模配的多维度性对比
- 9月7日:支持多编程语言代码评测,发布稳定可复现代码评测镜像提供多编程语言能力分析和对比
- 10月26日:联合南京大学推出大根型司法球力评测基准构建多层载力体系助力法律场景能力分析
- 12月1日:发布多模态评测工具套件VLMEvalKit支持包括Gemini、GPT-4V尊商业模型评测支持
- 2024年1月30日:Opencompass 2.0司南大模型评测体系正式发布
OpenCompass 助力大模型产业发展和学术研究
- 广泛应用于头部大模型企业和科研机构
- 获得 Meta 官方推荐唯一国产大模型评测体系
- 社区支持最完善的评测体系之一 100+ 评测集 50万+ 题目
如何评测大模型 ?
模型类别
基座模型:海量数据无监督训练(Base)
公开权重的开源模型:使用GPU/推理加速卡进行本地推理
对话模型:指令数据有监督微调(SFT);人类偏好对齐(RLHF)
API 模型:发送网络请求获取回复
客观评测与主观评测
客观问答题
客观选择题
开放式主观问答
提示词工程
长文本评测
汇集社区力量:工具-基准-榜单 三位一体
- 评测集社区CompassHub:提供高时效性高质量评测集
- 权威性能榜单CompassRank:发布权威榜单洞悉行业趋势
- 全栈评测工具Compasskit:支撑高效评测支持能力分析
CompassKit:大模型评测全栈工具链
OpenCompass 核心代码库功能全面升级
- 数据污染检查:提供多种数据污染检测方法;支持包括GSM-8K,MMLU等主流数据集上的污染检测
- 更丰富的模型推理接入:支持近20个商业模型API;支持LMDeploy、vLLMLighLLM等推理后端
- 长文本能力评测:支持1M长度大海捞针测试;支持多个主流长文本评测基准
- 中英文双语主观评测:支持基于大模型评价的主观评测;提供模型打分、模型对战多种能力;灵活切换上百种评价模型
能力维度全面升级
- 基础能力:考察大模型在如语言、知识、理解、数学、代码、推理等维度上的基本功;语言、知识、理解、数学、代码、推理
- 综合能力:考察大模型综合运用各类知识、理解与分析、多步推理、代码工具等来完成复杂任务的能力水平;考试、对话、创作、智能体、评价、长文本
夯实基础:自研高质量大模型评测基准
- MathBench 多层次数学能力评测基准
- CriticBench 多维度的LLM反思能力评估基准
- T-Eval 大模型细粒度工具能力评测基准
- CreationBench 多场景中文创作能力评测基准
- F-Eval 大模型基础能力评测基准
- CIBench 代码解释器能力评测基准
群策群力:携手行业领先共建繁荣生态
- OpenFinData全场景金融评测基准
- LawBench大模型司法能力基准
- MedBench中文医疗大模型评测基准
- SecBench网络安全评测基准