【InternLM 实战营第二期笔记+作业07】OpenCompass 大模型评测实战

本文链接：https://blog.csdn.net/zzzibo/article/details/139054281

第七次课程官方操作文档：Tutorial/opencompass/readme.md at camp2 · InternLM/Tutorial · GitHub

第七次课程录播链接：OpenCompass 大模型评测实战_哔哩哔哩_bilibili

一、评测促进模型发展

1.评测的必要性

2.评测的挑战

二、opencompass介绍

1.opencompass开源历程

2.opencompass应用企业及高校

是meta官方推荐唯一国产大模型评测体系

社区支持最完善的评测体系之一，有100+评测集 50万+题目，涉及学科、语言、知识、理解、推理等多个领域

3.如何评测大模型

评测对象包括基座模型和对话模型

基座模型：一般是经过海量的文本数据以自监督学习的方式进行训练获得的模型（如OpenAI的GPT-3，Meta的LLaMA），往往具有强大的文字续写能力。
对话模型：一般是在的基座模型的基础上，经过指令微调或人类偏好对齐获得的模型（如OpenAI的ChatGPT、书生·浦语、通义千问），能理解人类指令，具有较强的对话能力。

评测方式分为客观评测和主观评测

提示词工程

明确性、概念无歧义、逐步引导、具体描述、迭代反馈

小样本学习、思维链技术

长文本评测：指令跟随能力、长文本建模能力、信息抽取能力

汇集社区力量：工具——基准——榜单

大模型评测全栈工具链：

数据污染检查--更丰富的模型推理接入--长文本能力评测--中英文双语主观评测

数据污染检查：支持包括GSM-8K、MMLU等主流数据集上的污染检测

更丰富的模型推理接入：支持近20个商业模型API、支持LMDeploy、vLLM、lightLLM等推理后端，如huggingface模型评测较慢，可以更换lmdeploy推理后端，加快评测速度

opencompass评测流水线

在 OpenCompass 中评估一个模型通常包括以下几个阶段：配置 -> 推理 -> 评估 -> 可视化。

配置：这是整个工作流的起点。您需要配置整个评估过程，选择要评估的模型和数据集。此外，还可以选择评估策略、计算后端等，并定义显示结果的方式。
推理与评估：在这个阶段，OpenCompass 将会开始对模型和数据集进行并行推理和评估。推理阶段主要是让模型从数据集产生输出，而评估阶段则是衡量这些输出与标准答案的匹配程度。这两个过程会被拆分为多个同时运行的“任务”以提高效率，但请注意，如果计算资源有限，这种策略可能会使评测变得更慢。如果需要了解该问题及解决方案，可以参考 FAQ: 效率。
可视化：评估完成后，OpenCompass 将结果整理成易读的表格，并将其保存为 CSV 和 TXT 文件。你也可以激活飞书状态上报功能，此后可以在飞书客户端中及时获得评测状态报告。接下来，我们将展示 OpenCompass 的基础用法，展示书生浦语在 C-Eval 基准任务上的评估。它们的配置文件可以在 configs/eval_demo.py 中找到。

compasskit：大冒险评测全栈工具链

自研高质量大模型评测基准

mathbench：多层次数学能力评测基准

CIBench：代码解释器能力评测基准

T-Eval大模型细粒度工具能力评测基准

三、代码实现

1.环境安装

2.准备数据集

3.查看支持的数据集和模型

3.启动评测（基础作业）

第一种纯用命令行

python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug

启动评测命令行参数

参数	说明
--datasets ceval_gen	要评价的数据集
--hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b	用的模型
--tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b	分词器（tokenizer）的路径
--tokenizer-kwargs padding_side='left' truncation='left'	这个选项传递了额外的参数给分词器。padding_side='left'意味着在序列的左侧填充标记，以确保所有序列的长度一致。truncation='left'表示如果序列超过了最大长度，将从左侧开始截断。
trust_remote_code=True	这个布尔参数允许加载远程代码，这在加载模型和分词器时可能会用到。设置为True意味着信任并加载远程代码。
device_map='auto'	这个参数指定了模型应该在哪个设备上运行。'auto'选项意味着让系统自动决定使用哪个设备，通常是GPU（如果有的话）。
--max-seq-len 1024	可以输入的最大序列长度 1024token/字符
--max-out-len 16	可以输出的最大序列长度 16token/字符（视情况而定）
--batch-size 2	每小批次训练处理的样本数
--num-gpus 1	GPU数
--work dir ‘xxxx/xxx’	指定执行操作的路径，默认在outputs/default路径下
--reuse latest	指定从哪个时间戳开始跑，时间戳查看在outputs/default,比如--reuse 20240416_215103,就是接着这个时间戳开始跑
--debug	开这个模式，所有的bug都会在terminal显示，不开就在outputs/logs下

评测的运行情况、结果在：

第二种方法把命令行放入python文件

python run.py configs/eval_demo.py

第一次用的这种，遇到了错误捏，仔细一看run文件是根本没有，删环境重头来过~

跑了40分钟可以了

基础作业完整如下：

dataset	version	metric	mode	opencompass.models.huggingface.HuggingFace_Shanghai_AI_Laboratory_internlm2-chat-1_8b
ceval-computer_network	db9ce2	accuracy	gen	47.37
ceval-operating_system	1c2571	accuracy	gen	47.37
ceval-computer_architecture	a74dad	accuracy	gen	23.81
ceval-college_programming	4ca32a	accuracy	gen	13.51
ceval-college_physics	963fa8	accuracy	gen	42.11
ceval-college_chemistry	e78857	accuracy	gen	33.33
ceval-advanced_mathematics	ce03e2	accuracy	gen	10.53
ceval-probability_and_statistics	65e812	accuracy	gen	38.89
ceval-discrete_mathematics	e894ae	accuracy	gen	25
ceval-electrical_engineer	ae42b9	accuracy	gen	27.03
ceval-metrology_engineer	ee34ea	accuracy	gen	54.17
ceval-high_school_mathematics	1dc5bf	accuracy	gen	16.67
ceval-high_school_physics	adf25f	accuracy	gen	42.11
ceval-high_school_chemistry	2ed27f	accuracy	gen	47.37
ceval-high_school_biology	8e2b9a	accuracy	gen	26.32
ceval-middle_school_mathematics	bee8d5	accuracy	gen	36.84
ceval-middle_school_biology	86817c	accuracy	gen	80.95
ceval-middle_school_physics	8accf6	accuracy	gen	47.37
ceval-middle_school_chemistry	167a15	accuracy	gen	80
ceval-veterinary_medicine	b4e08d	accuracy	gen	43.48
ceval-college_economics	f3f4e6	accuracy	gen	32.73
ceval-business_administration	c1614e	accuracy	gen	36.36
ceval-marxism	cf874c	accuracy	gen	68.42
ceval-mao_zedong_thought	51c7a4	accuracy	gen	70.83
ceval-education_science	591fee	accuracy	gen	55.17
ceval-teacher_qualification	4e4ced	accuracy	gen	59.09
ceval-high_school_politics	5c0de2	accuracy	gen	57.89
ceval-high_school_geography	865461	accuracy	gen	47.37
ceval-middle_school_politics	5be3e7	accuracy	gen	71.43
ceval-middle_school_geography	8a63be	accuracy	gen	75
ceval-modern_chinese_history	fc01af	accuracy	gen	52.17
ceval-ideological_and_moral_cultivation	a2aa4a	accuracy	gen	73.68
ceval-logic	f5b022	accuracy	gen	27.27
ceval-law	a110a1	accuracy	gen	29.17
ceval-chinese_language_and_literature	0f8b68	accuracy	gen	47.83
ceval-art_studies	2a1300	accuracy	gen	42.42
ceval-professional_tour_guide	4e673e	accuracy	gen	51.72
ceval-legal_professional	ce8787	accuracy	gen	34.78
ceval-high_school_chinese	315705	accuracy	gen	42.11
ceval-high_school_history	7eb30a	accuracy	gen	65
ceval-middle_school_history	48ab4a	accuracy	gen	86.36
ceval-civil_servant	87d061	accuracy	gen	42.55
ceval-sports_science	70f27b	accuracy	gen	52.63
ceval-plant_protection	8941f9	accuracy	gen	40.91
ceval-basic_medicine	c409d6	accuracy	gen	68.42
ceval-clinical_medicine	49e82d	accuracy	gen	31.82
ceval-urban_and_rural_planner	95b885	accuracy	gen	47.83
ceval-accountant	2837	accuracy	gen	36.73
ceval-fire_engineer	bc23f5	accuracy	gen	38.71
ceval-environmental_impact_assessment_engineer	c64e2d	accuracy	gen	51.61
ceval-tax_accountant	3a5e3c	accuracy	gen	36.73
ceval-physician	6e277d	accuracy	gen	42.86
ceval-stem	-	naive_average	gen	39.21
ceval-social-science	-	naive_average	gen	57.43
ceval-humanities	-	naive_average	gen	50.23
ceval-other	-	naive_average	gen	44.62
ceval-hard	-	naive_average	gen	32
ceval	-	naive_average	gen	46.19

4.自定义数据集评测（进阶作业）

官方文档：快速开始 — OpenCompass 0.2.5 文档

讲怎么配置文件：配置数据集 — OpenCompass 0.2.5 文档

重点观察./opencompass下
分片partitoners、提交runner、openicl写明执行方式(评价/推理/撤回）、总结summarizers

自定义数据集评测步骤

1../configs/datasets下新建safeqa文件夹

2../configs/datasets/safeqa下新建safeqa_dataset,输入

from mmengine.config import read_base

with read_base():
    #从当前目录下的safeqa_dataset_2024文件导入safeqa_datasets变量
    from .safeqa_dataset_2024 import safeqa_datasets  # noqa: F401, F403

3.新建./configs/datasets/safeqa/safeqa_dataset_2024.py
设置如何加载、处理和评估safeqa数据集

from opencompass.openicl.icl_prompt_template import PromptTemplate
from opencompass.openicl.icl_retriever import FixKRetriever
from opencompass.openicl.icl_inferencer import GenInferencer
from opencompass.openicl.icl_evaluator import AccEvaluator
#./opencompass/datasets/safeqa.py 中的 safeqaDataset
from opencompass.datasets import safeqaDataset
from opencompass.utils.text_postprocessors import first_capital_postprocess

#改成自己的分类
safeqa_subject_mapping = {
    'safeqa': ['安全常识'],
}
safeqa_all_sets = list(safeqa_subject_mapping.keys())
#是返回到 ./configs/datasets/safeqa/safeqa_dataset.py的值。
safeqa_datasets = []
for _split in ["val"]:
    for _name in safeqa_all_sets:
        _ch_name = safeqa_subject_mapping[_name][0]
        safeqa_infer_cfg = dict(
            ice_template=dict(
                type=PromptTemplate,
                template=dict(
                    begin="</E>",
                    round=[
                        dict(
                            role="HUMAN",
                            prompt=
                            f"以下是中国关于{_ch_name}考试的单项选择题，请选出其中的正确答案。\n{{question}}\nA. {{A}}\nB. {{B}}\nC. {{C}}\nD. {{D}}\n答案: "
                        ),
                        dict(role="BOT", prompt="{answer}"),
                    ]),
                ice_token="</E>",
            ),
            retriever=dict(type=FixKRetriever, fix_id_list=[0, 1, 2, 3, 4]),
            inferencer=dict(type=GenInferencer),
        )
        safeqa_eval_cfg = dict(evaluator=dict(type=AccEvaluator), pred_postprocessor=dict(type=first_capital_postprocess))
        #以下是向safeqa_datasets 中增加数据集配置。
        safeqa_dataset.append(
            dict(
                type=safeqaDataset,
                path="./data/safeqa",
                name=_name,
                reader_cfg=dict(
                    input_columns=["question", "A", "B", "C", "D"],
                    output_column="answer",
                    train_split="dev",
                    test_split=_split),
                infer_cfg=safeqa_infer_cfg,
                eval_cfg=safeqa_eval_cfg,
            ))

del _split, _name, _ch_name

4./opencompass/datasets下新建safeqa.py
定义 safeqaDataset 的类，用于加载和处理CSV格式的数据集。

import csv
import os.path as osp

from datasets import Dataset, DatasetDict

from opencompass.registry import LOAD_DATASET

from .base import BaseDataset

@LOAD_DATASET.register_module()
class safeqaDataset(BaseDataset):
    """
    class safeqaDataset
    """
    @staticmethod
    def load(path: str, name: str):
        dataset = {}
        for split in ['dev', 'val']:
            filename = osp.join(path, split, f'{name}_{split}.csv')
            with open(filename, encoding='utf-8') as f:
                reader = csv.reader(f)
                header = next(reader)
                for row in reader:
                    item = dict(zip(header, row))
                    item.setdefault('explanation', '')
                    item.setdefault('answer', '')
                    dataset.setdefault(split, []).append(item)
        dataset = {i: Dataset.from_list(dataset[i]) for i in dataset}
        return DatasetDict(dataset)

5../opencompass/datasets/__init__.py 新增一行，以引入safeqa.py中定义的类和函数。

from .safeqa import *  # noqa: F401, F403

6.准备CSV问答文件

cd /root/opencompass
mkdir ./data/safeqa
mkdir ./data/safeqa/val
#touch ./data/safeqa/val/safeqa_val.csv或者直接上传

cd /root/opencompass
mkdir ./data/safeqa
mkdir ./data/safeqa/dev
#touch ./data/safeqa/dev/safeqa_dev.csv或者直接上传

我的问答集是这样的

val

id,question,A,B,C,D,answer
0,安全色中，红色表示?,A.禁止、停止,B.指令,C.警告,D.通行,A
1,在道路上骑自行车时，您认为下列做法中正确的是?,A.一手提物，一手扶把,B.攀扶其他车辆,C.互相追逐,D.双手扶把,D
2,发生交通事故后，搬运昏迷或有窒息危险的伤员时?，应采用的方式,A.俯卧,B.仰卧,C.侧卧,D.半卧,B
3,下列物质中哪一种属于爆炸物品?,A.硫酸,B.硝酸,C.苦味酸,D.木材,B
4,所居住的高层建筑发生火灾时，居住的学生可通过什么方法逃生?,A.乘坐电梯,B.向楼顶奔,C.从窗口跳出,D.从安全通道有秩序下楼,D
5,学生宿舍不能乱拉电线、乱接电源、违章使用电器、生火做饭、乱扔烟头，主要目的是切断着火的什么条件?,A.可燃物,B.助燃物,C.着火源,D.易燃物,C
6,可以用水扑灭的火灾是下列哪种物质?,A.油类起火,B.酒精起火,C.电器起火,D.棉、木起火,D
7,火警电话是?,A.110,B.119,C.120,D.122,B
8,根据刑法规定，对失火罪处以多少年有期徒刑?,A.1-2年,B.2-3年,C.3-6年,D.3-7年,D
9,流行性感冒的高发季节为?,A.夏秋季,B.秋冬季,C.冬春季,D.春夏季,C

dev

id,question,A,B,C,D,answer,explanation
0,安全色中，红色表示________。,A.禁止、停止,B.指令,C.警告,D.通行,A,红色表示警告
1,在道路上骑自行车时，您认为下列做法中正确的是________。,A.一手提物，一手扶把,B.攀扶其他车辆,C.互相追逐,D.双手扶把,D,双手扶把是正确骑行做法
2,发生交通事故后，搬运昏迷或有窒息危险的伤员时________。，应采用的方式,A.俯卧,B.仰卧,C.侧卧,D.半卧,B,仰卧搬运昏迷或有窒息危险的伤员
3,下列物质中哪一种属于爆炸物品________。,A.硫酸,B.硝酸,C.苦味酸,D.木材,B,硝酸是爆炸物品
4,所居住的高层建筑发生火灾时，居住的学生可通过什么方法逃生________。,A.乘坐电梯,B.向楼顶奔,C.从窗口跳出,D.从安全通道有秩序下楼,D,从安全通道有秩序下楼是高层逃生正确做法
5,学生宿舍不能乱拉电线、乱接电源、违章使用电器、生火做饭、乱扔烟头，主要目的是切断着火的什么条件________。,A.可燃物,B.助燃物,C.着火源,D.易燃物,C,不乱拉电线是为了切断着火源
6,可以用水扑灭的火灾是下列哪种物质________。,A.油类起火,B.酒精起火,C.电器起火,D.棉、木起火,D,只有棉、木起火可以被水扑灭
7,火警电话是________。,A.110,B.119,C.120,D.122,B,火警电话是119
8,根据刑法规定，对失火罪处以多少年有期徒刑________。,A.1-2年,B.2-3年,C.3-6年,D.3-7年,D,失火罪处3-7年有期徒刑
9,流行性感冒的高发季节为________。,A.夏秋季,B.秋冬季,C.冬春季,D.春夏季,C,冬春季是流行性感冒的高发季节

7. 查看支持的数据集和文件

conda activate opencompass
cd /root/opencompass
python tools/list_configs.py safeqa

8. 启动评测

export MKL_THREADING_LAYER=GNU
time python run.py --datasets safeqa_dataset --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug

经历无数次报错后！终于！

GitHub - hoo01/safeqa_opencompass_practice

提交

OpenCompass司南 - 数据集社区

补充：评测角色Agent相关论文

和大作业相关的角色扮演对话类，涉及到评价agent性能的论文：

1.Character-LLM: A Trainable Agent for Role-Playing

根据每个人物的资料构建一些单轮和多轮对话问题，让ChatGPT作为裁判，从Memorization，Values，Personality, Hallucination和Stability五个方面对Agent进行打分评估。打分分步进行，先总结Agent的表现，再让ChatGPT写出正确应该有的表现，然后比较两者，给出最后的分数。

Paper: https://arxiv.org/pdf/2310.10158v1.pdf

Code: https://github.com/choosewhatulike/trainable-agents

2.Large Language Models Meet Harry Potter: A Bilingual Dataset for Aligning Dialogue Agents with Characters

评测哈利波特角色的，

指标评测。用Rough-L,Bleu-1和Distinct-1进行评测。
GPT-4评测。GPt-4从场景相关性，人物属性相关性和人物关系相关性三个方面进行评测，对结果进行排序。
人类评测。让人类对GPT-4的排序结果进行修改和纠正。

Paper: https://arxiv.org/pdf/2211.06869.pdf

Code: https://nuochenpku.github.io/HPD.github.io/

3. RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models

评测指标：

Rouge-L: 基于RoleBench中的ground truth进行评测
使用GPT比较两个模型的好坏，用win rate进行评测

Paper: https://arxiv.org/pdf/2310.00746.pdf

Code: https://github.com/InteractiveNLP-Team/RoleLLM-public

总之，掌握评测是大模型研究中非常重要的一步，使用客观量化的方法才能服众。这节课太难了。