2024年,大模型百家争鸣,同时也出现了专业化大模型、垂类大模型、小模型等细分场景的大模型应用。
遍地开花的大模型在使用过程中也出现过很多啼笑皆非的例子,有的甚至存在明显的杜撰和事实性错误,归根结底,大模型的发展和完善离不开人的训练和优化。由此,一款大模型产品是否达到预期水平,对大模型开展准确客观的评估评测成为了一项重要工作。
自然语言处理评测
1、自然语言理解(NLU)
自然语言理解能力评测用于评估模型在理解自然语言方面的能力,常见任务有情感分析、文本匹配、文本分类和阅读理解等。已有GLUE、XTREME和CLUE等评测基准。
2、自然语言生成(NLG)
自然语言生成能力评测针对模型生成自然语言的能力,常见任务有机器翻译、生成式文本摘要、自动对话等。评测指标有BLEU、METEOR、ROUGE等。
3、综合能力评测
随着大语言模型的发展,单一的评测基准已无法满足需求,因此需要同时评估汉语理解和生成能力。
全面的大语言模型评测
大模型评测的开展需要依托于系统化、多维度的评估体系,以确保其能力、安全性和适应性等各方面都能达到预期标准。具体做法涉及多个层面,包括知识和能力的评估、对齐评测、安全评测以及行业大模型评测等。具体如下:
1.知识和能力评估
-
问答与知识补全:评估大模型在特定领域内的问答能力和知识补全能力,通常使用标准数据集进行。
-
推理能力:分为常识推理、逻辑推理、多跳推理和数学推理,通过这些推理类型来测试大模型在不同场景下的逻辑思维能力。
-
工具学习能力:包括工具调用能力和工具创造能力的评估,以确定大模型是否能在真实场景中有效应用工具。
-
多任务学习评测:检测大模型是否在多种任务上保持性能,反映其泛化能力,如BIG-bench、CMMLU、C-Eval等数据集的使用[^1^]。
2. 对齐评测
-
道德和伦理评测:确保大模型生成内容符合公认的道德伦理规范,采用专家定义及众包方式构建评估数据集[^5^]。
-
偏见性评测:关注大模型生成内容是否对某些社会群体产生不利影响,涉及下游任务中的偏见和大模型中的偏见评估[^5^]。
-
毒性评测:主要聚焦于大模型生成内容中是否含有仇恨、侮辱等有害信息,并利用相应评测基准进行量化评估[^5^]。
-
诚实性评测:致力于检测大模型生成内容的真实性和准确性,细分为问答、对话和摘要任务数据集的评估[^5^]。
3. 安全评测
- 鲁棒性评估:包括提示词鲁棒性、任务鲁棒性、价值对齐鲁棒性的评估,以衡量大模型在各种对抗样本中的稳定性[^5^]。
-
模型鲁棒性的评估方法之一是对文本输入进行扰动,观察模型输出的变化。扰动大致分为两类:对抗扰动和非对抗扰动。对抗扰动是为了误导模型做出错误预测而故意对输入内容进行修改,对模型的预测结果会产生明显影响。非对抗扰动则是对输入内容更自然和随机的改动,用于模拟现实世界中输入的复杂情况。对抗扰动可以用来评估模型对恶意输入的处理能力,而非对抗扰动可用于衡量模型在现实世界中面对有自然误差的输入时的表现。在评估大语言模型时,需要综合考虑这两种扰动类型的影响,以更全面地评估模型的鲁棒性。
-
- 风险评估:关注大模型行为评估和智能体评估,探索大模型在模拟环境中与环境及其它智能体的交互表现[^5^]。
4. 行业大模型评测
- 特定领域优化:针对特定行业(如法律、金融、医疗等)训练和优化的行业大模型进行深入评测,梳理评测基准和结果[^5^]。
- 综合评测组织:整合多个评测维度或子维度,进行大模型的综合评估,确保其全面适应不同应用场景的需求[^5^]。
总之,在进行大模型评测时,需综合考虑其通用能力、行业能力、应用能力、安全能力等多个维度的表现,同时解决评测数据集难管理、测试“刷榜”等问题,确保测试全面、客观、高效[^4^]。