书生·浦语大模型-OpenCompass

一、课堂笔记

1.大模型评测中的挑战:

  • 全面性:大模型应用场景千变万化;模型能力演进迅速;如何设计和构造可扩展的能力维度体系。
  • 评测成本:评测数十万道题需要大量算力资源。
  • 数据污染:海量语料不可避免带来评测集污染;需要可靠的污染检测技术;如何设计可动态更新的高质量评测基准。
  • 鲁棒性:大模型对提示词十分敏感;多次采样情况下模型性能不稳定。

2.OpenCompass 开源历程

3.四类模型的评测

  • 基座模型:海量数据无监督训练
  • 对话模型:指令数据有监督微调(SFT);人类偏好对其(RLHF)
  • 公开权重的开源模型:使用 GPU/推理加速卡进行本地推理
  • API 模型:发送网络请求获取回复

4.客观评测与主观评测:

5.提示词工程(Prompt Engineering):

6.长文本评测:如”大海捞针”

过程:在一个长文本中插入一个无关的问题和答案,比如下面的小明在哪里实习的问题。然后再问模型这个问题,如果能回答上来,说明具备比较好的长文本能力。

7.CompassKit

有评测流水线:任务切分,并行的跑评测任务

还有其他的工具:

8.CompassHub:

9.评测基准

数学方面

代码方面

其他

二、实战操作

1.启动OpenCompass评测

安装 opencompass:

git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
# 如果pip install -e .安装未成功,请运行:
pip install -r requirements.txt

准备评测数据集

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

查看 internlm 相关的配置文件:

python tools/list_configs.py internlm ceval

启动评测:

python run.py
--datasets ceval_gen \
--hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \  # HuggingFace 模型路径
--tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \  # HuggingFace tokenizer 路径(如果与模型路径相同,可以省略)
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \  # 构建 tokenizer 的参数
--model-kwargs device_map='auto' trust_remote_code=True \  # 构建模型的参数
--max-seq-len 1024 \  # 模型可以接受的最大序列长度
--max-out-len 16 \  # 生成的最大 token 数
--batch-size 2  \  # 批量大小
--num-gpus 1  # 运行模型所需的 GPU 数量
--debug

如果报错,重新执行下面的一堆:

studio-conda -o internlm-base -t opencompass
source activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -r requirements.txt
pip install -e .
pip install protobuf
cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

export MKL_SERVICE_FORCE_INTEL=1
python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug

在评测过程中,显存占用可能高达十几个 GB,因此 8GB 应该是不够用的。

可以在下面的文件夹中查看评测结果:

2.执行逻辑

--max-seq-len 2048:模型读入的最大 token 长度
--max-out-len 16:模型回复输出的token长度,一般客观评测(如选择题)可以设置的小一些,加快评测速度;如果是主观评测或者问答,可能要设置大一些。
--batch-size 4:用于指定在训练模型时每个批次(batch)中包含的样本数量
--work-dir '' : 工作路径,不指定默认在 output/default下
--reuse latest: 使用最新的时间戳下的路径中的内容,比如最新的时间戳跑了一部分结果,就可以继续使用继续跑
--debug:debug模式,在工作台打印

  • configs 文件夹:每次跑都会有一个记录总结,把所有的 config写在时间戳.py这个文件中
  • logs 文件夹:存放日志
  • predictions 文件夹:存放数据集的预测结果
  • results 文件夹:存放评测结果
  • summary文件夹:对结果进行总结,打分什么的

有很多的数据集和模型:

  • 分片:怎么分片的,看 partitioners 文件夹下的文件
  • 任务:分片完之后是一个个的任务,看 tasks文件夹下的文件对应 runners 文件下的文件怎么去提交
  • 执行:每个任务怎么去执行,看 openicl 文件夹下的文件
  • 总结:任务执行完成之后,怎么对任务进行总结,看 summarizers 文件下的文件

3.自建数据集

  • 在 datasets 下的 ceval 文件夹下新建 py 文件:

import csv
import json
import os.path as osp

from datasets import Dataset, DatasetDict

from opencompass.registry import LOAD_DATASET

from .base import BaseDataset


@LOAD_DATASET.register_module()
class CEval2Dataset(BaseDataset):

    @staticmethod
    def load(path: str, name: str):
        dataset = {}
        for split in ['dev', 'val', 'test']:
            filename = osp.join(path, split, f'{name}_{split}.csv')
            with open(filename, encoding='utf-8') as f:
                reader = csv.reader(f)
                header = next(reader)
                for row in reader:
                    item = dict(zip(header, row))
                    item.setdefault('explanation', '')
                    item.setdefault('answer', '')
                    dataset.setdefault(split, []).append(item)
        dataset = {i: Dataset.from_list(dataset[i]) for i in dataset}
        return DatasetDict(dataset)


class CEvalDatasetClean(BaseDataset):

    # load the contamination annotations of CEval from
    # https://github.com/liyucheng09/Contamination_Detector
    @staticmethod
    def load_contamination_annotations(path, split='val'):
        import requests

        assert split == 'val', 'Now we only have annotations for val set'
        annotation_cache_path = osp.join(
            path, split, 'ceval_contamination_annotations.json')
        if osp.exists(annotation_cache_path):
            with open(annotation_cache_path, 'r') as f:
                annotations = json.load(f)
            return annotations
        link_of_annotations = 'https://github.com/liyucheng09/Contamination_Detector/releases/download/v0.1.1rc/ceval_annotations.json'  # noqa
        annotations = json.loads(requests.get(link_of_annotations).text)
        with open(annotation_cache_path, 'w') as f:
            json.dump(annotations, f)
        return annotations

    @staticmethod
    def load(path: str, name: str):
        dataset = {}
        for split in ['dev', 'val', 'test']:
            if split == 'val':
                annotations = CEvalDatasetClean.load_contamination_annotations(
                    path, split)
            filename = osp.join(path, split, f'{name}_{split}.csv')
            with open(filename, encoding='utf-8') as f:
                reader = csv.reader(f)
                header = next(reader)
                for row_index, row in enumerate(reader):
                    item = dict(zip(header, row))
                    item.setdefault('explanation', '')
                    item.setdefault('answer', '')
                    if split == 'val':
                        row_id = f'{name}-{row_index}'
                        if row_id in annotations:
                            item['is_clean'] = annotations[row_id][0]
                        else:
                            item['is_clean'] = 'not labeled'
                    dataset.setdefault(split, []).append(item)
        dataset = {i: Dataset.from_list(dataset[i]) for i in dataset}
        return DatasetDict(dataset)

这里的 class 名和配置文件中的要一致。

  • 在 opencompass 下的 datasets中新建一个 py 文件

from opencompass.openicl.icl_prompt_template import PromptTemplate
from opencompass.openicl.icl_retriever import FixKRetriever
from opencompass.openicl.icl_inferencer import GenInferencer
from opencompass.openicl.icl_evaluator import AccEvaluator
from opencompass.datasets import CEval2Dataset
from opencompass.utils.text_postprocessors import first_capital_postprocess

ceval_subject_mapping = {
    'computer_network': ['Computer Network', '计算机网络', 'STEM'],
    'operating_system': ['Operating System', '操作系统', 'STEM'],
    'physician': ['Physician', '医师资格', 'Other'],
}
ceval_all_sets = list(ceval_subject_mapping.keys())

ceval_datasets = []
for _split in ["val"]:
    for _name in ceval_all_sets:
        _ch_name = ceval_subject_mapping[_name][1]
        ceval_infer_cfg = dict(
            ice_template=dict(
                type=PromptTemplate,
                template=dict(
                    begin="</E>",
                    round=[
                        dict(
                            role="HUMAN",
                            prompt=
                            f"以下是中国关于{_ch_name}考试的单项选择题,请选出其中的正确答案。\n{{question}}\nA. {{A}}\nB. {{B}}\nC. {{C}}\nD. {{D}}\n答案: "
                        ),
                        dict(role="BOT", prompt="{answer}"),
                    ]),
                ice_token="</E>",
            ),
            retriever=dict(type=FixKRetriever, fix_id_list=[0, 1, 2, 3, 4]),
            inferencer=dict(type=GenInferencer),
        )

        ceval_eval_cfg = dict(
            evaluator=dict(type=AccEvaluator),
            pred_postprocessor=dict(type=first_capital_postprocess))

        ceval_datasets.append(
            dict(
                type=CEval2Dataset,
                path="./data/ceval/formal_ceval",
                name=_name,
                abbr="ceval-" + _name if _split == "val" else "ceval-test-" +
                _name,
                reader_cfg=dict(
                    input_columns=["question", "A", "B", "C", "D"],
                    output_column="answer",
                    train_split="dev",
                    test_split=_split),
                infer_cfg=ceval_infer_cfg,
                eval_cfg=ceval_eval_cfg,
            ))

del _split, _name, _ch_name

ceval_infer_cfg需要修改 prompt,ceval_eval_cfg是评测方式的选择,如果是选择题,这里使用AccEvaluator。

  • 在 init 中进行 import

Tutorial/opencompass/readme.md at camp2 · InternLM/Tutorial (github.com)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值