OpenCompass大模型评测笔记和作业

书生·浦语大模型实战营笔记系列

6)OpenCompass大模型评测笔记和作业



前言

包括为什么、是什么、怎么做大模型评测以及大模型评测的一些国内外现状及opencompass


一、为什么需要大模型评测

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

二、评测什么

对于传统的NLP任务
在这里插入图片描述
对于大语言模型
在这里插入图片描述

三、如何评测

对于不同的模型评测构建不一样

比如对于基座模型和经过指令微调的对话模型
在这里插入图片描述

客观评测

在这里插入图片描述

主观评测

在这里插入图片描述

提示词工程

测试模型在提示词这方面的鲁棒性
在这里插入图片描述

四、国内外大模型评测状况

主流大模型评测框架

在这里插入图片描述

OpenCompass能力框架

在这里插入图片描述

OpenCompass评测平台

在这里插入图片描述

OpenCompass开源评测平台架构

在这里插入图片描述

丰富的模型支持

在这里插入图片描述

OpenCompass评测流水线设计

在这里插入图片描述

大模型能力对比

在这里插入图片描述

大模型前沿探索

多模态方面
在这里插入图片描述
法律领域方面
在这里插入图片描述

大模型评测领域的挑战

在这里插入图片描述

五、动手实战

源文档
源视频

五、作业

在这里插入图片描述
不要在A100(1/4)*1上跑,会出现显存不够的情况,在A100(1/4)*2上跑
结果截图如下图所示
在这里插入图片描述
在这里插入图片描述


总结

介绍了如何用opencompass进行评测,拖延症患者呜呜呜,最后一天终于写完了,希望之后还有大作业产出可以把进阶作业也实践一下吧。

  • 11
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值