OpenCompass大模型评测笔记和作业

最新推荐文章于 2025-11-23 22:32:11 发布

原创

最新推荐文章于 2025-11-23 22:32:11 发布 · 545 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#笔记

本文详细阐述了大模型评测的重要性，涉及评测内容、方法（客观和主观评测）、OpenCompass评测平台的使用，以及国内外大模型评测的现状、挑战和实战作业示例。作者分享了使用OpenCompass进行评测的实际操作和注意事项。

书生·浦语大模型实战营笔记系列

6）OpenCompass大模型评测笔记和作业

文章目录

书生·浦语大模型实战营笔记系列
6）OpenCompass大模型评测笔记和作业
前言
一、为什么需要大模型评测
二、评测什么
三、如何评测
四、国内外大模型评测状况
五、动手实战
五、作业
总结

前言

包括为什么、是什么、怎么做大模型评测以及大模型评测的一些国内外现状及opencompass

一、为什么需要大模型评测

在这里插入图片描述

二、评测什么

对于传统的NLP任务
在这里插入图片描述
对于大语言模型

三、如何评测

对于不同的模型评测构建不一样

比如对于基座模型和经过指令微调的对话模型
在这里插入图片描述

客观评测

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_45720528

关注关注

11
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

OpenCompass 大模型评测

MD-coder的博客

02-26

1551

OpenCompass介绍评测对象本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型（如OpenAI的GPT-3，Meta的LLaMA），往往具有强大的文字续写能力。对话模型：一般是在的基座模型的基础上，经过指令微调或人类偏好对齐获得的模型（如OpenAI的ChatGPT、上海人工智能实验室的书生·浦语），能理解人类指令，具有较强的对话能力。工具架构。

第七课 OpenCompass 大模型评测实战笔记及作业

wudiyjnewway的博客

06-14

1172

OpenCompass 大模型评测实战笔记及作业

参与评论您还未登录，请先登录后发表或查看评论

OpenCompass 大模型评测实战——笔记

YYYYbhjbhkv_的博客

04-24

1569

海量语料不可避免带来评测集污染，比如有的模型，它是在测试集上做的训练，这就会导致后面测试分数虚高，但他们也不公布自己训练的数据集，所以别人就不知道，或者测试集和训练集有大量重叠部分，也相当于作弊或者自欺欺人，所以亟需可靠的数据污染检测技术，那如何设计可动态更新的高质量评测基准，也是个问题。既然要评测，那就是要尽可能在一个相对准备充足的条件下对模型进行评测，但很多时候，因为提问者的问题提问的不够清楚，导致模型的回答也相对较差，那这就体现不出模型的能力，所以肯定是要在能体现模型能力的基础上再进行评测。

OpenCompass 大模型评测实战笔记

m0_65989999的博客

04-24

395

它从语言、知识、理解、推理、安全等多个能力维度进行评测，并采用客观评测与主观评测相结合的方法。该评测体系的主要特点包括开源可复现、全面的能力维度评估、丰富的模型支持、分布式高效评测、多样化的评测范式和灵活的拓展性。此外，OpenCompass提供了丰富的工具层支持，包括分布式评测技术、提示词工程、评测数据库对接、评测榜单发布和评测报告生成等功能。总的来说，OpenCompass是一个功能全面、使用灵活的大模型评测工具，对于研究人员和产品开发者来说，它提供了一个有效的平台来评估和选择适合的大型语言模型。

OpenCompass 大模型评测笔记

qq_45607888的博客

01-23

536

github文档地址：https://github.com/InternLM/tutorial/blob/main/opencompass/opencompass_tutorial.md。视频地址：https://www.bilibili.com/video/BV1Gg4y1U7uc/换提示词若模型答错，则说明模型鲁棒性较差。也可以自定义数据集进行测试。

OpenCompass 大模型评测（笔记&作业）

littleheart88的博客

02-21

302

本节课程重点介绍了大模型评测技术的发展情况以及具体的评测方法，以及对OpenCompass工具的功能和架构的介绍，工具的使用非常简单，就是评测过程较为耗时。

OpenCompass 大模型评测【课程笔记 & 作业 #6】

weixin_44202873的博客

02-20

617

分两种评测方式：客观和主观。

OpenCompass大模型测评实战学习笔记

Moo_n_earth的博客

06-07

869

评测意义：研究评测对于我们全面了解大型语言模型的优势和限制至关重要；研究评测有助于指导和改进人类与大型语言模型之间的协同交互；研究评测可以帮助我们更好地规划大型语言模型未来的发展；评测能了解不同语言模型之间的性能、舒适性和安全性，能够帮助人们更好地选择适合的模型。如何通过评测促进模型发展：评测中的面临挑战：如何评测：按模型类别不同划分评测：基座模型、公开权重的开源模型、对话模型、API模型按评测方式：客观评测与主观评测提示词工程将题目变得更加丰富，然后再进行推理或者评测。

【OpenCompass 大模型评测——笔记】

YYYYbhjbhkv_的博客

01-26

3031

本算法库的主要评测对象为语言大模型与多模态大模型。我们以语言大模型为例介绍评测的具体模型类型。基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型（如OpenAI的GPT-3，Meta的LLaMA），往往具有强大的文字续写能力。对话模型：一般是在的基座模型的基础上，经过指令微调或人类偏好对齐获得的模型（如OpenAI的ChatGPT、上海人工智能实验室的书生·浦语），能理解人类指令，具有较强的对话能力。

【InternLM 实战营第二期笔记+作业07】OpenCompass 大模型评测实战

zzzibo的博客

06-02

2197

第七节 OpenCompass ：大模型评测实战笔记与作业

kding123的博客

04-22

1722

数据污染是指本应用在下游测试任务重的数据出现在了大语言模型 (LLM) 的训练数据中，从而导致在下游任务 (例如，摘要、自然语言推理、文本分类) 上指标虚高，无法反映模型真实泛化能力的现象。由于数据污染的源头是出现在 LLM 所用的训练数据中，因此最直接的检测数据污染的方法就是将测试数据与训练数据进行碰撞，然后汇报两者之间有多少语料是重叠出现的，经典的 GPT-3 论文中的表 C.1 会报告了相关内容。

[Linux]学习笔记系列 -- [kernel]sys

wdfk-prog.space

11-20

1182

Linux内核的kernel/sys.c文件实现了重要的系统信息与控制接口，包含一系列基础但关键的系统调用。这些系统调用解决了系统状态监控（如sysinfo）、系统标识管理（如uname）、生命周期控制（如reboot）等核心问题。该文件继承UNIX传统，经历了prctl()功能扩展和sysctl()废弃等重要演进。kernel/sys.c为系统工具提供了标准化接口，所有Linux管理工具都依赖其功能。其设计采用系统调用分发中心模式，通过SYSCALL_DEFINE*宏定义函数，具有标准化和集中化优势，但也

学习笔记十三：决策树划分

dengdaijc的专栏

11-19

877

决策树划分选择是构建决策树的核心问题，主要通过信息增益、增益率和基尼指数三种准则来选择最优划分属性。信息增益（ID3算法）衡量划分前后的纯度提升，但对多值属性有偏好；增益率（C4.5算法）通过引入固有值来平衡这一偏好；基尼指数（CART算法）计算简单高效。三种准则各有特点：信息增益直观但可能偏向多值属性，增益率更平衡但计算稍复杂，基尼指数适用于大规模数据。实际应用中应根据数据特性和任务需求选择合适准则，以构建高效的决策树模型。

隐语——数据要素流通技术MOOC三期课程笔记——数据组件安全可行流通新模式课堂笔记

最新发布

明月朗，潇水寒

11-23

668

本文介绍了数据组件作为标准化数据初级产品的核心概念与应用。主讲人胡承盛阐述了数据组件的三种形态（主态、模态、组合态）及其在金融、医疗等领域的应用案例。课程重点解析了数据组件的四大特性（安全、价值、品质、政策定位）、双层封装体系以及其在解决数据确权难题中的突破性作用。详细展示了数据组件从设计生产到流通使用的全流程，包括5阶段15步骤40工序的生产工艺。目前已在德阳、郑州等多个城市试点落地，实现交易额破亿。展望未来，数据组件将与隐私计算等技术深度融合，成为促进数据要素流通和数字经济发展的关键基础设施。

学习笔记——基础hash思想及其简单C++实现

2502_91790308的博客

11-23

642

哈希表是一种查找时间复杂度为O(1)的高效数据结构，通过哈希函数将数据映射到固定位置实现快速查询。本文介绍了哈希表的核心概念，包括哈希函数（重点讲解除留余数法）、负载因子和哈希冲突。针对冲突问题，详细阐述了开放定址法（含线性探测、二次探测）和链地址法两种解决方案。文章还通过计数排序示例说明哈希思想，并探讨了实现中的关键问题，如扩容策略、处理非整数类型键值的方法等。哈希表性能优异但需合理设计，否则可能退化为O(n)复杂度。

ArkTS 关键字速查笔记

m0_75236543的博客

11-22

876

ArkTS 在 TypeScript 语法之上，针对鸿蒙生态与高性能场景做了。本笔记把官方文档与社区实践中最常用的关键字按场景分组，方便你随查随用。

Qwen2-VL 阅读笔记

qq_42910179的博客

11-21

854

包含清洗后的网页数据、开源数据集和合成数据，知识截止日期为2023年6月。

Vue 项目实战《尚医通》，利用 Qrcode 获取二维码，笔记51

Rockandrollman的博客

11-23

Vue 项目实战《尚医通》，利用 Qrcode 获取二维码，笔记51

Android学Dart学习笔记第四节基本类型

weixin_44656996的博客

11-21

988

本文介绍了Dart语言中的基本数据类型。数字类型包括int（整型）和double（浮点型），它们都继承自num类。字符串支持插值表达式、多行文本和原始字符串表示。布尔类型只有true和false两个值。此外还介绍了UTF-16字符编码处理方式，以及Symbol类型作为反射和动态调用的标识符。文章通过代码示例展示了各种数据类型的使用方法，并解释了相关特性。

极智AI解读：大模型显存占用技巧与个人笔记

2. **解读算一算大模型显存占用**: 指的是对AI大模型在运行过程中所需的显存进行分析和计算，理解显存是如何被消耗的。 ### 描述知识点描述中未提供更多具体信息，但我们可以推断该笔记是由个人编写的，其内容...