书生·浦语大模型实战营笔记系列
6)OpenCompass大模型评测笔记和作业
文章目录
前言
包括为什么、是什么、怎么做大模型评测以及大模型评测的一些国内外现状及opencompass
一、为什么需要大模型评测
二、评测什么
对于传统的NLP任务
对于大语言模型
三、如何评测
对于不同的模型评测构建不一样
比如对于基座模型和经过指令微调的对话模型
客观评测
主观评测
提示词工程
测试模型在提示词这方面的鲁棒性
四、国内外大模型评测状况
主流大模型评测框架
OpenCompass能力框架
OpenCompass评测平台
OpenCompass开源评测平台架构
丰富的模型支持
OpenCompass评测流水线设计
大模型能力对比
大模型前沿探索
多模态方面
法律领域方面
大模型评测领域的挑战
五、动手实战
五、作业
不要在A100(1/4)*1上跑,会出现显存不够的情况,在A100(1/4)*2上跑
结果截图如下图所示
总结
介绍了如何用opencompass进行评测,拖延症患者呜呜呜,最后一天终于写完了,希望之后还有大作业产出可以把进阶作业也实践一下吧。