一、课堂笔记

1.大模型评测中的挑战:
- 全面性:大模型应用场景千变万化;模型能力演进迅速;如何设计和构造可扩展的能力维度体系。
- 评测成本:评测数十万道题需要大量算力资源。
- 数据污染:海量语料不可避免带来评测集污染;需要可靠的污染检测技术;如何设计可动态更新的高质量评测基准。
- 鲁棒性:大模型对提示词十分敏感;多次采样情况下模型性能不稳定。
2.OpenCompass 开源历程

3.四类模型的评测
- 基座模型:海量数据无监督训练
- 对话模型:指令数据有监督微调(SFT);人类偏好对其(RLHF)
- 公开权重的开源模型:使用 GPU/推理加速卡进行本地推理
- API 模型:发送网络请求获取回复
4.客观评测与主观评测:

5.提示词工程(Prompt Engineering):

6.长文本评测:如”大海捞针”
过程:在一个长文本中插入一个无关的问题和答案,比如下面的小明在哪里实习的问题。然后再问模型这个问题,如果能回答上来,说明具备比较好的长文本能力。

7.CompassKit

有评测流水线:任务切分,并行的跑评测任务

还有其他的工具:

8.CompassHub:


9.评测基准

数学方面

代码方面

其他

二、实战操作
1.启动OpenCompass评测
安装 opencompass:
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .
# 如果pip install -e .安装未成功,请运行:
pip install -r requirements.txt
准备评测数据集
cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip
查看 internlm 相关的配置文件:
python tools/list_configs.py internlm ceval
启动评测:
python run.py
--datasets ceval_gen \
--hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \ # HuggingFace 模型路径
--tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b \ # HuggingFace tokenizer 路径(如果与模型路径相同,可以省略)
--tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True \ # 构建 tokenizer 的参数
--model-kwargs device_map='auto' trust_remote_code=True \ # 构建模型的参数
--max-seq-len 1024 \ # 模型可以接受的最大序列长度
--max-out-len 16 \ # 生成的最大 token 数
--batch-size 2 \ # 批量大小
--num-gpus 1 # 运行模型所需的 GPU 数量
--debug
如果报错,重新执行下面的一堆:
studio-conda -o internlm-base -t opencompass
source activate opencompass
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -r requirements.txt
pip install -e .
pip install protobuf
cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip
export MKL_SERVICE_FORCE_INTEL=1
python run.py --datasets ceval_gen --hf-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-path /share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 1024 --max-out-len 16 --batch-size 2 --num-gpus 1 --debug

在评测过程中,显存占用可能高达十几个 GB,因此 8GB 应该是不够用的。
可以在下面的文件夹中查看评测结果:


2.执行逻辑
--max-seq-len 2048:模型读入的最大 token 长度
--max-out-len 16:模型回复输出的token长度,一般客观评测(如选择题)可以设置的小一些,加快评测速度;如果是主观评测或者问答,可能要设置大一些。
--batch-size 4:用于指定在训练模型时每个批次(batch)中包含的样本数量
--work-dir '' : 工作路径,不指定默认在 output/default下
--reuse latest: 使用最新的时间戳下的路径中的内容,比如最新的时间戳跑了一部分结果,就可以继续使用继续跑
--debug:debug模式,在工作台打印

- configs 文件夹:每次跑都会有一个记录总结,把所有的 config写在时间戳.py这个文件中
- logs 文件夹:存放日志
- predictions 文件夹:存放数据集的预测结果
- results 文件夹:存放评测结果
- summary文件夹:对结果进行总结,打分什么的

有很多的数据集和模型:
- 分片:怎么分片的,看 partitioners 文件夹下的文件
- 任务:分片完之后是一个个的任务,看 tasks文件夹下的文件对应 runners 文件下的文件怎么去提交
- 执行:每个任务怎么去执行,看 openicl 文件夹下的文件
- 总结:任务执行完成之后,怎么对任务进行总结,看 summarizers 文件下的文件
3.自建数据集
- 在 datasets 下的 ceval 文件夹下新建 py 文件:

import csv
import json
import os.path as osp
from datasets import Dataset, DatasetDict
from opencompass.registry import LOAD_DATASET
from .base import BaseDataset
@LOAD_DATASET.register_module()
class CEval2Dataset(BaseDataset):
@staticmethod
def load(path: str, name: str):
dataset = {}
for split in ['dev', 'val', 'test']:
filename = osp.join(path, split, f'{name}_{split}.csv')
with open(filename, encoding='utf-8') as f:
reader = csv.reader(f)
header = next(reader)
for row in reader:
item = dict(zip(header, row))
item.setdefault('explanation', '')
item.setdefault('answer', '')
dataset.setdefault(split, []).append(item)
dataset = {i: Dataset.from_list(dataset[i]) for i in dataset}
return DatasetDict(dataset)
class CEvalDatasetClean(BaseDataset):
# load the contamination annotations of CEval from
# https://github.com/liyucheng09/Contamination_Detector
@staticmethod
def load_contamination_annotations(path, split='val'):
import requests
assert split == 'val', 'Now we only have annotations for val set'
annotation_cache_path = osp.join(
path, split, 'ceval_contamination_annotations.json')
if osp.exists(annotation_cache_path):
with open(annotation_cache_path, 'r') as f:
annotations = json.load(f)
return annotations
link_of_annotations = 'https://github.com/liyucheng09/Contamination_Detector/releases/download/v0.1.1rc/ceval_annotations.json' # noqa
annotations = json.loads(requests.get(link_of_annotations).text)
with open(annotation_cache_path, 'w') as f:
json.dump(annotations, f)
return annotations
@staticmethod
def load(path: str, name: str):
dataset = {}
for split in ['dev', 'val', 'test']:
if split == 'val':
annotations = CEvalDatasetClean.load_contamination_annotations(
path, split)
filename = osp.join(path, split, f'{name}_{split}.csv')
with open(filename, encoding='utf-8') as f:
reader = csv.reader(f)
header = next(reader)
for row_index, row in enumerate(reader):
item = dict(zip(header, row))
item.setdefault('explanation', '')
item.setdefault('answer', '')
if split == 'val':
row_id = f'{name}-{row_index}'
if row_id in annotations:
item['is_clean'] = annotations[row_id][0]
else:
item['is_clean'] = 'not labeled'
dataset.setdefault(split, []).append(item)
dataset = {i: Dataset.from_list(dataset[i]) for i in dataset}
return DatasetDict(dataset)
这里的 class 名和配置文件中的要一致。
- 在 opencompass 下的 datasets中新建一个 py 文件

from opencompass.openicl.icl_prompt_template import PromptTemplate
from opencompass.openicl.icl_retriever import FixKRetriever
from opencompass.openicl.icl_inferencer import GenInferencer
from opencompass.openicl.icl_evaluator import AccEvaluator
from opencompass.datasets import CEval2Dataset
from opencompass.utils.text_postprocessors import first_capital_postprocess
ceval_subject_mapping = {
'computer_network': ['Computer Network', '计算机网络', 'STEM'],
'operating_system': ['Operating System', '操作系统', 'STEM'],
'physician': ['Physician', '医师资格', 'Other'],
}
ceval_all_sets = list(ceval_subject_mapping.keys())
ceval_datasets = []
for _split in ["val"]:
for _name in ceval_all_sets:
_ch_name = ceval_subject_mapping[_name][1]
ceval_infer_cfg = dict(
ice_template=dict(
type=PromptTemplate,
template=dict(
begin="</E>",
round=[
dict(
role="HUMAN",
prompt=
f"以下是中国关于{_ch_name}考试的单项选择题,请选出其中的正确答案。\n{{question}}\nA. {{A}}\nB. {{B}}\nC. {{C}}\nD. {{D}}\n答案: "
),
dict(role="BOT", prompt="{answer}"),
]),
ice_token="</E>",
),
retriever=dict(type=FixKRetriever, fix_id_list=[0, 1, 2, 3, 4]),
inferencer=dict(type=GenInferencer),
)
ceval_eval_cfg = dict(
evaluator=dict(type=AccEvaluator),
pred_postprocessor=dict(type=first_capital_postprocess))
ceval_datasets.append(
dict(
type=CEval2Dataset,
path="./data/ceval/formal_ceval",
name=_name,
abbr="ceval-" + _name if _split == "val" else "ceval-test-" +
_name,
reader_cfg=dict(
input_columns=["question", "A", "B", "C", "D"],
output_column="answer",
train_split="dev",
test_split=_split),
infer_cfg=ceval_infer_cfg,
eval_cfg=ceval_eval_cfg,
))
del _split, _name, _ch_name
ceval_infer_cfg需要修改 prompt,ceval_eval_cfg是评测方式的选择,如果是选择题,这里使用AccEvaluator。
- 在 init 中进行 import

Tutorial/opencompass/readme.md at camp2 · InternLM/Tutorial (github.com)
269

被折叠的 条评论
为什么被折叠?



