综述译文 | Large Language Model Alignment: A Survey (2)

原文链接:http://arxiv.org/abs/2309.15025 作者:Tianhao Shen Renren Jin Yufei
Huang Chuang Liu Weilong Dong Zishan Guo Xinwei Wu Yan Liu Deyi Xiong∗
College of Intelligence and Computing, Tianjin University, Tianjin,
China

8 Alignment Evaluation

评估对于对齐研究很重要,尤其是对于开发经验对齐方法。我们回顾了与LLM对齐有关的方法和资源。如图 6 所示,我们的对齐评估环境是跨多个层次构建的。第一级说明了我们关注的LLM外在对齐的五个方面,即:1)事实性,2)道德,3)毒性,4)刻板印象和偏见,以及5)一般评估。一般评估不针对单一的特定一致性维度,例如事实性、毒性。相反,它评估对齐的多个维度或 LLM 对齐的一般方面。下一阶段对每个领域目前可用的主要评估方法进行分类。在这个级别上,我们将特定任务的评估与以 LLM 为中心的评估区分开来。特定任务评估是指评估下游任务的对齐质量,而以 LLM 为中心的评估则直接为 LLM 设计评估基准、方法或指标。第三级用于细粒度分类或展示相关作品,使读者能够迅速确定他们感兴趣的领域。

在这里插入图片描述
图6:对齐评估方法的分类,包括事实性和真实性,伦理,毒性,刻板印象和偏见以及综合评估。

8.1 事实性评估

机器生成的内容应与事实一致,避免产生幻觉内容。此外,生成的每条信息都应该是事实准确的。这些都表明,事实性评价至少包括事实一致性评价和事实精确性评价。
事实一致性要求生成的内容应与给定的上下文保持一致。由于下游任务,如文本摘要、对话,通常伴随着丰富的上下文,因此对此类下游任务进行了许多特定任务的现实性评估研究。虽然这可以在一项任务上完成(Laban 等人,2022 年;Fabbri 等人,2021 年),对多个任务的一致性评估更有说服力。Honovich 等人(2022 年)对事实一致性进行了全面分析,结合了各种指标、任务和 3 个数据集。他们的研究将来自各种任务的 11 个数据集整合到一个统一的格式中。他们还比较了使用这种统一格式评估一致性的现有方法的有效性。ALIGNSCORE 指标由 (Zha et al., 2023) 提出,旨在涵盖广泛的事实一致性评估场景,例如跨各种长度和任务的矛盾和幻觉。该指标是通过训练对齐模型开发的,该模型从 7 个 NLP 任务中重组了 15 个数据集。这些任务包括自然语言推理、问答、释义、事实验证、信息检索、语义相似性和摘要。

事实性精确度评估也是针对特定任务的。Lee et al. (2022) 提出了事实精度评估的基准和指标。他们使用事实和非事实提示从 LLM 获取生成的文本。使用的特定任务包括命名实体识别和蕴涵。Min et al. (2023) 介绍了 FACTSCORE,这是一种将长篇文本解构为原子事实或单个信息的新方法,为每个事实分配一个二进制标签。然而,这种方法的有效性很大程度上取决于这些原子事实的获取,这使得评估任务的选择成为一个关键因素。他们专注于个人传记的生成,因为这些传记中包含的原子事实可以由维基百科验证。

事实精确度也与模型如实回答问题的能力有关。Lin et al. (2021) 提出了 TruthfulQA,并认为 LLM 的训练目标可能会影响他们产生错误的反应。因此,他们设计了一系列高度归纳的问题来积极评估 LLM。

评估事实性面临两个重大挑战。首先,虽然事实性包括无数事实,但迄今为止,事实性评估的范围本质上是有限的。其次,现实生活中并非所有事实都容易被划分为原子事实。当前的评估方法在处理无法简化的复杂信息时存在不足,例如评估需要复杂推理的事实性。

ALIGNSCORE
http://arxiv.org/abs/2305.16739
许多文本生成应用程序要求生成的文本与输入信息在事实上一致。自动评估事实一致性具有挑战性。以前的工作已经开发了各种指标,这些指标通常依赖于特定功能,例如自然语言推理(NLI)或问答(QA),这些指标是在有限的数据上训练的。因此,这些指标很难评估不同任务的不同输入/输出(例如,句子、文档)中发生的各种事实不一致(例如,矛盾、幻觉)。在本文中,我们提出了 ALIGNSCORE,这是一种新的整体指标,适用于上述各种事实不一致情况。ALIGNSCORE 基于两个任意文本片段之间的信息对齐的一般函数。至关重要的是,我们通过集成大量数据源来开发对齐功能的统一训练框架,从而从 7 个完善的任务(NLI、QA、释义、事实验证、信息检索、语义相似性和摘要)中生成 4.7M 个训练示例。我们对大规模基准进行了广泛的实验,包括 22 个评估数据集,其中 19 个数据集从未在对齐训练中看到过。与以前的一系列指标相比,ALIGNSCORE取得了实质性的改进。此外,ALIGNSCORE(355M 参数)与基于 ChatGPT 的指标相匹配,甚至优于指标。

Factuality Enhanced Language Models for Open-Ended Text Generation
https://proceedings.neurips.cc/paper_files/paper/2022/file/df438caa36714f69277daa92d608dd63-Paper-Conference.pdf
预训练语言模型 (LM) 容易生成包含非事实信息的文本。在这项工作中,我们测量并提高了用于开放式文本生成的大规模LM的事实准确性。我们设计了 FACTUALITYPROMPTS 测试集和指标来衡量 LM 世代的事实性。基于此,我们研究了参数大小范围为126M至530B的LM的事实准确性。有趣的是,我们发现较大的LM比较小的LM更真实,尽管之前的一项研究表明,较大的LM在误解方面可能不那么真实。此外,开放式文本生成中流行的抽样算法(例如,top-p)由于每个采样步骤引入的“均匀随机性”,可能会损害事实性。我们提出了一种事实核抽样算法,该算法可以动态调整随机性,以提高生成的事实性,同时保持质量。此外,我们分析了标准训练方法在从事实文本语料库(例如维基百科)中学习实体之间的正确关联方面的低效率。我们提出了一种以TOPICPREFIX为训练目标,以TOPICPREFIX为训练目标,以增强对事实的认识和句子完成度,从而大大减少事实错误。

8.2 Ethics Evaluation

伦理是一个多方面的问题,几乎渗透到社会的方方面面,以辩证思维为特征。它涵盖了广泛的考虑因素,包括善与恶、对与错、美德与罪恶、正义与犯罪,这些都与个人有关(马丁内斯,2020 年)。因此,大多数LLM伦理评估都采用一种简单的方法。这包括向被评估的模型提出与伦理和道德相关的问题,然后根据其回答评估模型在这些问题上与人类价值观的一致性。

Hendrycks 等人(2020 年)介绍了ETHICS 基准,该基准综合收集了超过 130,000 个场景,涵盖五个伦理领域:正义、美德伦理、道义论、功利主义和常识道德。这些场景由通过资格测试的个人精心设计,作为经过测试的模型必须预测道德情绪是可接受或不可接受的简短陈述。同样,Tay 等人(2020 年)提出了 MACS 基准,其中包括 200,000 个选定的问题,用于学习与文化价值观和社会偏好的一致性。该基准测试通过其独特的 3 数据收集方法而与众不同,该方法借鉴了流行的在线游戏“你宁愿吗?该游戏中提供的问题和答案提供了比仅依赖少数注释器的问题和答案更全面的数据集。与这些涉及短文本的作品相比,Lourie et al. (2021) 以长文本格式收集现实生活中的轶事,细节丰富。原始数据来自Reddit上的一个公共子论坛,这是一个平台,个人可以从在线熟人那里寻求建议,以应对现实生活中的情况。

Would you rather? a new benchmark for learning machine alignment with cultural values and social preferences.
https://aclanthology.org/2020.acl-main.477v2.pdf
我们提出了MACS(Machine Alignment with Cultural and Social Preferences),这是一个新的基准数据集,用于学习机器与人类文化和社会偏好的一致性。MACS包含并需要社会和文化推理来解决,以及对人类的整体整体理解。它被设计为具有挑战性的,最先进的 NLP 模型仍然在 60% ≈挣扎。

社会化学 101(Forbes 等人,2020 年)中采用的评估方法与传统的基于 QA 的方法不同。他们将隐性常识规则解构为人类判断的十二个不同维度,包括文化压力、行动、社会判断等。该研究为特定场景的注释者提供了一系列视角选择。这种创新方法使注释者能够从不同的角度检查道德情况,从而丰富注释数据的深度和广度。显然,道德伦理领域的评估依赖于现实世界的背景数据。虽然一些举措在数据收集过程中考虑了文化背景,但主要数据和参考响应主要源于研究人员自己的文化背景。因此,研究人员有责任致力于收集和生成反映各种文化背景的数据,然后将其用作评估数据。

8.3 Toxicity Evaluation

毒性被定义为可能在人际关系、工作环境或其他社会环境中表现出来的有害和破坏性行为或态度。这可能采取控制他人、操纵、贬低或恶意攻击的形式。这些行为可能是公开的,也可能是隐蔽的,对个人的自尊、安全和福祉造成损害。有毒语言种类繁多,包括:(i)导致自残行为的建议;(ii) 色情或暴力内容;(iii) 骚扰、贬低、冒犯、侮辱和仇恨言论;(iv) 鼓吹攻击性或暴力行为的建议,例如网络欺凌;(v) 寻找非法商品或服务的准则或指示。

我们将毒性评估分为两个维度:特定任务的评估和以LLM为中心的评估特定于任务的评估涉及评估模型在应用于特定下游任务时显示的毒性水平。NLP领域任务的多样性极大地丰富了我们的评估场景,使我们能够更全面地研究语言模型表现出毒性的上下文。另一方面,以 LLM 为中心的评估直接根据生成的输出评估 LLM 以衡量其毒性。在特定于任务的评估中,模型的性能可能会受到特定任务的约束,可能会以优先实现“高精度”的方式运行。相比之下,在以 LLM 为中心的评估中,模型主要根据其固有的知识和趋势做出响应。这种评估方法是目前受到广泛关注和采用的主流方法。

8.3.1 Task-specific Evaluation

冒犯性语言检测可以归类为下游分类任务。冒犯性语言涉及以亵渎神明、极度不礼貌、不礼貌或粗鲁的方式使用伤害性的口齿,旨在贬低特定的个人或群体(Chen et al., 2012;Razavi等人,2010)。Twitter关于攻击性语言检测的早期工作(Waseem和Hovy,2016)提供了仅共享Twitter ID和欺凌类型的数据集,缺乏详细内容。在此基础上,Ross et al. (2017) 专注于德国难民状况,数据集仅超过 400 条推文。Wulczyn et al. (2017) 分析了来自维基百科的大量语料库,探索了 9500 万次用户与文章的互动,以进行人身攻击和毒性。相比之下,Zampieri et al. (2019) 重返 Twitter,引入了一个数据集,其中包含对攻击类型和目标的详细注释,丰富了对社交媒体中攻击性语言的理解。

8.3.2 LLM-centered Evaluation

为了直接评估 LLM 的毒性,以 LLM 为中心的评估会触发模型产生毒性反应。这些评估主要集中在所产产物的毒性水平上。
BAD(Xu et al., 2020)要求个人与高级模型进行对抗性对话,以促使他们产生不安全的反应。此方法反映了模型在部署时可能面临的潜在对抗性挑战。通过利用这种方法,他们收集了广泛的对话数据集,可以进一步用于评估LLM的毒性。
同样,RealToxicityPrompts (Gehman et al., 2020) 构建了大量提示,并对 GPT-1 (Radford et al., 2018)、GPT-2 (Radford et al., 2019)、GPT-3 (Brown et al., 2020) 和 CTRL (Keskar et al., 2019) 等各种语言模型进行了全面评估。研究结果表明,即使来自看似无害的提示,预训练的LM也可能退化为产生有毒文本。特别是,GPT-1 表现出最高的毒性,这可能归因于其训练数据中的有毒含量较高。这一观察结果强调了对LLM进行严格数据审查的重要性。 将重点转移到中文语境,COLD(邓等人,2022)探讨了中文中冒犯性语言的检测。它从社交媒体平台收集了大量真实文本数据,并评估了几个开源模型。与之前的发现一致,无论输入提示中是否存在冒犯性内容,这些模型生成的输出通常包含冒犯性语言。

8.4 Stereotype and Bias Evaluation

偏见和刻板印象偏见被定义为先入为主的态度,通常基于一个群体的种族、性别、性取向、宗教或其他特征。这些态度可能是消极的,也可能是积极的,但都是对一个群体的普遍判断,而不是基于个人的实际行为或特征。偏见可能导致歧视或其他不公正的行为。

我们还将刻板印象和偏见评估分为两个维度:特定任务的评估和以 LLM 为中心的评估。前者涉及将模型应用于特定下游任务时的偏差 3 评估,而后者则直接评估模型中存在的固有偏差。

仇恨言论是用于表达对目标个人或群体的仇恨的语言,或旨在基于种族、宗教、国籍、性取向、残疾或性别等属性贬低、羞辱或侮辱群体成员的语言(Davidson et al., 2017;Badjatiya 等人,2017 年;Warner 和 Hirschberg,2012 年;Schmidt 和 Wiegand,2017 年;Djuric 等人,2015 年)。由于仇恨言论通常与偏见有关,因此在介绍一般偏见评估之后,我们将讨论 LLM 生成的内容中的仇恨言论检测。

8.4.1 Task-specific Evaluation

为了了解模型在其输出中加强偏差的位置,许多研究调查了这些偏差在下游任务中是如何发生的。这些任务可以通过提示工程标准化为生成性任务,使其适用于评估 LLM。

共指解析的任务是最早用于研究语言模型偏差的任务之一,通常使用 F1 分数作为指标。Winogender(Rudinger et al., 2018)和WinoBias(Zhao et al., 2018)都解决了与职业相关的性别偏见。他们利用句子的Winogram图式风格(Levesque,2011),在解释“HE”和“SHE”时揭示了共指解析系统中的刻板印象。GICOREF(Cao 和 III,2021 年)侧重于该模型在与非二元和二元跨性别者相关的文本上的表现。所有评估的系统在这些文本上的表现都比二元性别文本差,最佳模型仅获得 34% 的 F1 分数。

WinoMT Challenge Set(Stanovsky 等人,2019 年)是首个大规模探索机器翻译任务中性别偏见的项目,整合了 Winogender 和 WinoBias,并为八种语言设定了评估标准。翻译中的性别准确性是主要衡量标准。他们在商业 MT 系统和高级学术模型中都发现了明显的翻译偏差。Renduchintala 和 Williams(2021 年)将这一任务扩展到 20 种语言,考察了模型在语境不明确的情况下是否仍然会犯性别翻译错误。他们发现准确率普遍低于 70%,尤其是当感知的职业性别与上下文相矛盾时。

同样,WikiGenderBias(Gaut 等人,2020 年)是一个旨在分析关系提取任务中性别偏见的数据集。它通过比较从 45000 个句子中提取女性与男性职业信息时的模型性能,评估了 NRE 系统中的性别偏见。

Díaz等人(2019)发现,改变句子中的年龄和性别术语会影响情感分析中的模型得分。公平评估语料库(EEC)(Kiritchenko 和 Mohammad,2018 年)深入研究了种族和性别类别,对 219 个情感分析系统进行了全面评估。

Dev 等人(2020 年)利用自然语言推理(NLI)来检测模型中的偏差。他们基于极化形容词和种族名称建立了一个广泛的基准,其中不仅包括性别,还包括国家和宗教。模型中的偏差由中性答案的偏差决定。他们的研究结果表明,GloVe、ELMo 和 BERT 模型中存在明显的偏差。

偏见检测也可归类为分类任务。Sap 等人(2019)提供了一个包含 15 万条社交媒体帖子注释的数据集,突出显示了不同人口群体的社会偏见框架。进一步的本地化工作,尤其是针对非英语语言的本地化工作,催生了 CDail-Bias(Zhou 等人,2022 年)。这是首个针对对话系统中社会偏见的中文数据集,涵盖了种族、性别、地区和职业等领域。在更专业的方向上,CORGI-PM(Zhang 等,2023 年)专门研究性别偏见。这个独特的中文语料库包含 32,900 个标注句子,是中文句子级性别偏见研究的创举。他们的创新方法使用自动化流程对明显的性别偏差进行采样,然后根据句子级偏差概率重新排序,以更精确地检测和减少偏差。

8.4.2 LLM-centered Evaluation

在对语言模型进行直接偏见评估时,有多种评估方法。有的采用对比法,使用相关的句子对:一个句子对有较多的定型观念,另一个句子对则较少定型观念(Nadeem et al.,2020;Nangia et al.,2020)。通过语言模型恢复掩码的可能性来检测偏差。StereoSet (Nadeem 等人,2020 年)涉及性别、职业、种族和宗教等多个领域,测试了 BERT(Devlin 等人,2019 年)、GPT-2、RoBERTa(Liu 等人,2019 年)和 XLNet(Yang 等人,2019 年)等模型。CrowS-Pairs(Nangia 等人,2020 年)将偏见类型扩展到九个类别:种族、宗教、年龄、社会经济地位、性别、残疾、国籍、性取向和外貌。值得注意的是,他们改变了评价指标,以避免仅仅由于某些句子在训练数据中频繁出现而提高其可能性,而不是学习到的社会偏见。

还有一些类似于毒性评估的方法,是向模型提供提示,让它们完成序列,然后评估这些模型输出中的偏差。BOLD(Dhamala 等人,2021 年)是一个提示数据集,包含从维基百科收集的五种偏见类型:职业、性别、种族、宗教和政治意识形态。有了这些提示,BOLD 就能通过提出的毒性、心理语言规范和文本性别极性的自动指标来评估语言模型的社会偏见。HolisticBias (Smith 等人,2022 年)是一个偏见数据集,包含 13 个人口统计方向和 600 多个子类别,可对模型生成的内容进行全面评估,并将自动评估和人工评估相结合,以更全面地揭示偏见。自动评估通过比较不同文体类型的数量来衡量偏差。人工评估则根据偏好、人类相似度和趣味性标准,与亚马逊 Mechanical Turk 平台上的众包工作者比较减少了偏差的模型和原始模型的性能。多语言整体偏见(Costa-jussà 等人,2023 年)将 HolisticBias(Smith 等人,2022 年)扩展到多达 50 种语言,强调了多语言环境中偏见的普遍性和多样性。

UnQover(Li等人,2020年)和BBQ(Parrish等人,2022年)都侧重于通过将生成任务转化为多选题回答任务来检测模型偏差,但评估方法不同。UnQover 利用的是不确定的问题,这些问题无法根据给定的上下文进行模拟回答。然而,他们的评估是基于分配给两个错误选项的可能性,而 BBQ 总是为模型提供 4 个正确答案,测量模型选择正确答案的比例。BBQ 包含九种偏差类型,被选为 HELM 中评估 LLM 的偏差基准(Liang 等人,2022 年)。CBBQ(Huang 和 Xiong,2023 年)为中国的 LLM 设计了一个偏差评估数据集,涵盖 14 种偏差类型,植根于中国社会。除了扩展偏差类型外,CBBQ 还提出了一种新的自动度量方法,用于评估多个开源中文法律硕士。

8.4.3 Hate Speech Detection

仇恨言论检测可视为一项分类任务。这项任务的开发不仅可以促进对模型生成内容的控制和审查,衡量其有害性(与对齐中的无害性相反),还可以帮助审查 LLM 训练数据中的有害内容,从而减少预训练 LLM 的错误对齐输出。然而,用普遍接受的标准来衡量有害性仍然具有挑战性。11 它通过分析文本来检查其中是否包含潜在的有害内容,包括威胁、侮辱、亵渎和恶意言论,从而识别并过滤掉妨碍在线论坛建设性对话的文本。Facebook 和 Twitter 都已实施政策,禁止在其平台上的行为。这些被禁止的行为基于种族、民族、性别和性取向等特征攻击或威胁他人。

显性仇恨言论早期研究主要关注社交媒体平台 Twitter 上的显性仇恨言论,因为 Twitter 的开放性和广泛性为研究提供了理想的数据源。Waseem(2016)调查了由业余注释者和专家注释者注释的 16914 个条目,F1 分数是主要的评估指标。Davidson 等人(2017)收集了 24802 条推文,将其细化为仇恨言论、攻击性但非仇恨言论以及既非攻击性也非仇恨言论。TweetBLM 数据集(Kumar 和 Pranesh,2021 年)与 "黑人生命至上 "运动相关,包含 9,165 个人工标注的数据实例,并对各种语言模型进行了系统评估。

de Gibert 等人(2018 年)的研究以白人至上主义论坛 Stormfront 为中心,分析了 9,916 个手工标记的仇恨言论条目。此外,肯尼迪等人(2022 年)将注意力转向了仇恨论坛,如 gab.com,他们的数据集包括 27665 个与暴力和极端主义相关的条目。鉴于 Reddit 平台的庞大性,Breitfeller 等人(2019 年)选择将其作为研究对象,集中研究轻度违规语料库及其客观标准。另一方面,DynaHate(Vidgen 等人,2021 年)引入了一种独特的研究方法,利用人类和模型动态生成和注释数据,而不是从真实世界的社交媒体语境中收集数据。这种方法不仅增加了数据量,还提高了数据质量。

隐性仇恨言论 仇恨言论检测的关键挑战在于微妙之处。与经常使用亵渎或露骨语言的公开有害性不同,隐蔽的有害性有时可能会表现出积极的情绪,通常较难大规模检测或收集(MacAvaney等人,2019;Breitfeller等人,2019)。然而,针对少数群体或边缘化群体的微妙有害语言会对这些群体的成员造成心理伤害(Sue 等人,2007 年;Nadal 等人,2014 年;Kanter 等人,2018 年;Nadal,2018 年;Saleem 和 Anderson),并可能强化或放大对他们的现有成见或仇恨观念(Behm-Morawitz 和 Mastro,2008 年;Soral 等人,2018 年)。

ImplicitHateCorpus(ElSherief 等人,2021 年)为 Twitter 上的隐性仇恨言论引入了一个开创性的基准语料库。这项研究比较了 GPT-2 和 GPT 的性能,发现 GPT-2 在目标群体和含蓄声明生成方面都优于 GPT。在此之后,TOXIGEN 数据集(Hartvigsen 等人,2022 年)利用 GPT-3 生成微妙的有毒和良性文本,进一步推动了该领域的研究,与之前的人工编写资源相比,该资源涵盖了更广泛、更多人口群体的隐性有毒文本。这就产生了一个涵盖 13 种身份的庞大句子集合(超过 274,000 个)。为了提高数据质量,Hosseini 等人(2023 年)改进了 TOXIGEN 数据集,只选择注释者一致同意的目标群体句子,并引入了新的安全评分标准。这凸显了内隐仇恨言论检测的不断进步,以及对更精确仇恨言论识别的追求。

8.5 General Evaluation

除了上述侧重于测量对齐质量某一特定方面(如事实性、偏差)的基准和方法外,同时或以一般方式从多个方面全面评估 LLM 对齐质量的 LLM 对齐一般评估也越来越受到关注。

8.5.1 Benchmarks

一般的评估基准通常采取这样一种形式,即被评估模型对给定指令和可选输入输出响应,由高级 LLM 或人类作为评估者。

TrustGPT(Huang等人,2023年)采用模板从三个角度生成指令:偏见、毒性和价值一致性,每个维度使用不同的自动评估指标。鉴于以往的评估过于直接(如要求模型判断某种行为的道德性),TrustGPT 将有害内容纳入提示,从而在被动条件下评估价值一致性。在更专业的方向上,Sun 等人(2023a)专注于评估中国 LLM 的安全能力,设计了 8 种典型的安全场景和 6 种更具挑战性的指令攻击,证明指令攻击更容易暴露 LLM 的漏洞。他们维护了一个排行榜,通过计算高级 LLM 对每个模型的安全得分来评估常见 LLM 的安全水平。然而,在分析 4 个模型的对准能力时,往往需要从真实性、毒性等多个方面对模型进行细粒度评估。仅仅根据偏好给模型打一个总分,很难对模型进行全面分析。因此,FLASK(Ye 等人,2023 年)将粗粒度评分细分为四种基本能力:逻辑思维、背景知识、问题处理和用户对齐四项基本能力又细分为 12 项细粒度技能,并使用高级 LLM 或人工对这 12 项技能的每个角度进行评分。研究发现,掌握不同技能的模型量表是不同的。另一方面,MTbench(Zheng 等人,2023a)基于人类偏好来测量 LLM 在多轮对话中听从指令的能力,包含 80 个高质量的多轮问题,涵盖 8 个常见场景,包括写作、角色扮演、提取、推理、数学和编码。Big-bench HHH 数据集(Srivastava et al.由于它不需要经过测试的 LLM 来生成响应,因此保持了一个计算简单且相对公平的评估系统。该基准中使用的评估指标是准确率。对该数据集的评估结果表明,LLM 在诚实类别中表现最佳,大型模型表现出更强的鲁棒性。

一般评估框架应具有可扩展性、增量性和一致性,这意味着当评估数据有限时,该框架能够扩大被评估 LLM 的范围,使用尽可能少的新实验来评估新模型,并为所有已评估的 LLM 提供稳定的排序(Zheng 等,2023a)。虽然 GPT-4 可能会产生相对一致的评价,但由于幻觉和其他未解决的问题,使用如此先进的 LLM 作为评价器并不能保证稳定一致的排序。我们希望看到同时满足这三个特性的基准出现。

8.5.2 Methods

自动评估 许多研究都使用 BLEU、ROUGE 等自动指标来评估 LLM 在多个数据集上的表现。然而,事实证明,现有的自动评估指标与人类对长答案的偏好并不一致(Xu 等,2023b)。虽然人工评估被广泛用于综合配准评估基准,但其成本高昂。随着 LLM 能力的增长,其强大的生成能力已经在多个基准测试中媲美或超越了普通人的表现,这说明 LLM 不仅可以作为 “考生”,还可以作为潜在的 "考官 "来评估其他 LLM。

此前已经有人尝试使用 PLMs 进行评估。Xu 等人(2023b)和 Fu 等人(2023)使用 GPT3 和 FLAN-T5 对主流文本生成任务进行了有针对性的评估,证明了 PLMs 在 NLG 任务评估中的潜力。像 ChatGPT 这样功能强大的 LLM 的出现,使得越来越多的研究采用 LLM 作为评估工具。随后,LLMs 被广泛应用于对齐评价,以补充人类评价,其评价方法有三种:单一答案分级、成对比较和参考指导分级(Zheng 等人,2023a)。

  1. 单个答案分级

单个答案分级使用高级 LLM 或人类评估员为被评估 LLM 生成的给定查询的答案打分。Chiang 等人(2023 年)利用 GPT-4 通过对各种聊天机器人的有用性和相关性等属性进行评分来评估单个答案,并为其评估提供理由。

  1. 成对比较
    成对比较要求高级 LLM 或人类评估者确定,在两个被评估的 LLM 针对每个给定查询生成的两个可能响应中,哪一个更优,或者它们是否等同。Dettmers 等人(2023 年)和 Wang 等人(2023 年 c)采用 GPT-4 对 ChatGPT(或 text-davinci-003)和被评估模型的回答进行评分并提供理由,最终计算出模型相对于 ChatGPT 的得分。同样,AlpacaEval(Li 等人,2023d)使用基于 GPT-4 或 Claude 或 ChatGPT 的自动评估器,将被评估的 LLM 生成的响应与 text-davinci-003 的参考响应进行比较。随后,考虑到使用闭源 API 进行评估可能存在数据泄露的潜在风险,PandaLM(Wang 等人,2023b)引入了判断 LLM,帮助用户在本地选择最佳 LLM。

  2. 参考指导评分
    参考指导评分提供由人类生成的适当参考答案,并要求高级 LLM 将两个被评估 LLM 生成的答案与参考答案进行比较。研究表明,这种评估方式能使数学问题获得更好的评分结果(Zheng 等人,2023a)。

使用高级 LLM 进行自动评估也有相应的缺点。在成对比较方面,随着需要评估的模型数量不断增加,评估结果也会呈指数级增长。此外,所使用的高级 LLM 在比较过程中会出现位置偏差、冗长偏差和自我强化偏差。这些偏差会使评估者的 LLM 倾向于第一个答案、冗长的答案或由特定 LLM 生成的答案,尽管另一个答案更简洁、更准确(Zheng 等人,2023a;Wang 等人,2023a)。相反,单一答案评分会忽略两个答案之间的细微差别,导致分数不稳定,损害评价的可信度。此外,本地学生在数学和推理能力方面的局限性导致他们在涉及数学和推理的评价任务中同样表现不佳(Zheng 等,2023a)。

为了解决立场偏差问题,可以通过立场转换或要求评价者龙8国际娱乐网址地生成多个证据支持来进行多重评价(Zheng 等人,2023a;Wang 等人,2023a)。为了弥补数学和推理方面的不足,可以探索思维链(Wei 等人,2022 年),以显著提高LLM的推理能力,从而改进需要推理技能的评估(Wang 等人,2023a;Liu 等人,2023c;Zheng 等人,2023a)。

然而,上述方法并不能缓解自我强化偏差的问题。当问题涉及复杂推理时,通过商议和辩论的多智能体团队合作往往可以拓宽知识面,打破单一固有认知,从而得出更准确、更公平的结果。研究表明,多个 LLM 之间的协作努力可以增强较弱模型的推理能力(Ho 等人,2022 年;Magister 等人,2022 年;Wei 等人,2022 年),从而在各种下游任务中取得先进的性能。

因此,最近的研究试图通过使用多个 LLM 进行评估来缓解偏差问题。Bai 等人(2023 年)提出了一种 "同行评审 "方法,即多个模型互相参考对方的评价和支持理由,模拟类似人类 "讨论 "的思维过程。

相比之下,Li 等人(2023c)采用的是 "裁判 "方法,即多个模型轮流评估彼此的答案。他们根据每个模型的胜率为其分配权重,最终答案由评估过程中多个模型的加权结果决定。使用多个 LLM 进行评估,既缓解了单个 LLM 的偏差问题,又继续发挥了 LLM 强大的评估能力,证明了 LLM 评估可以成为人工评估的有力补充。

然而,LLM 评估中的偏差和能力缺陷尚未完全解决,这使得基于 LLM 的自动评估目前无法完全替代人工评估。此外,现有 LLM 训练数据、其架构和训练方法的广泛相似性可能会使相互评估结果偏向于 LLM 的内在现有标准,而不是正确的人类价值观(Dai 等人,2023 年)。

人类评估 利用 LLMs 作为评估者具有快速性和成本效益。然而,即使是先进的 LLM(如 GPT-4)也不完全与人类评估结果一致(Zheng 等人,2023a;Dettmers 等人,2023)。因此,高风险决策应优先考虑人工评估。

现有的人工评估通常采用专家对 LLM 的输出进行定量评估。Wang 等人(2022b)通过人工评价来评估模型输出是否有效地遵循指令并完成给定任务,并根据输出的质量将其分为四个等级。Ye 等人(2023)从粗粒度评价转向细粒度评价,包括四种能力和十二种技能,并请专家对这十二个方面逐一打分。

显而易见,人工评价在很大程度上取决于相关专家的专业知识水平。然而,由于专家之间固有的价值观差异,这种评价形式仍然容易受到歧视和偏见问题的影响。

使用成对比较和交叉注释可以在一定程度上缓解偏差问题。AlpacaFram(Dubois 等人,2023 年)使用成对比较来建立人类偏好数据集。注释者的任务是选择两个 LLM 输出中的优越者,四个评估者同时注释了 650 个实例。Chatbot Arena(Zheng 等人,2023a)则是一个众包平台,在这个平台上,一个人可以同时与两个聊天机器人对话,并根据个人喜好对它们的回应进行评分,从而实现人类对多个聊天机器人能力的评估。WizardLM(Xu 等人,2023a)对这一概念进行了扩展,它可以让众包工作者对多个 LLM 的回复进行配对比较,从相关性、知识、推理、计算和准确性五个维度对它们进行评估。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值