题目
评估LLM应用的挑战:自动化、人工和基于LLM的方法分析
论文地址:https://arxiv.org/pdf/2406.03339
摘要
聊天机器人从一开始就是自然语言生成的一个有趣的应用。随着新的基于变压器的生成人工智能方法,建立聊天机器人已经变得微不足道。针对特定领域(如医学和心理学)的聊天机器人实现得很快。然而,这不应该分散对评估聊天机器人反应的需要。尤其是因为自然语言生成社区并不完全同意如何有效地评估这样的应用程序。通过这项工作,我们进一步讨论了日益流行的基于LLM的评估的问题,以及它们如何与人类评估相关联。此外,我们引入了一个全面的分解评估机制,可以与人工评估和基于LLM的评估结合使用。我们展示了在一个使用教育报告的聊天机器人实现中使用该方案进行的实验评估的结果,并随后比较了自动化、传统人工评估、因子人工评估和因子LLM评估。结果表明,基于因素的评估对LLM应用中哪些方面需要改进产生了更好的见解,并进一步加强了在主要功能不是直接检索的关键空间中使用人工评估的论点。
LLM,人的评价,评价挑战,基于因素的评价,LLM评价
引言
在大型语言模型(LLM)API的推动下,聊天机器人开发的前景正在迅速发展。虽然开发的速度令人兴奋,但是构建一个LLM驱动的应用程序和使用LLM构建一个可靠的系统之间还是有差距的。这一挑战需要仔细考虑最终产品是否满足所有要求,并对其进行评估,以测试其与性能和道德标准的一致性。正如[1]所强调的,这个评估过程应该包括技术评估和面向信任的框架。确保运营效率和负责任的使用之间的平衡至关重要。这个过程由于LLM中的常见陷阱而变得更加复杂,因为一些作者[2,3,4,5]提到LLM的某些方面可能会出错,例如幻觉、音调和输出格式。
图1:每位评估者的李克特量表评分的中位数。每个分支显示了评估者如何根据Blooms分类法中的问题类型对回答进行评级。
有效的评估有助于改进和维护验证和一致性,以避免常见的陷阱。鉴于聊天机器人等基于LLM的生成性应用的普及,开发有效的评估系统对于研究人员和开发人员来说都是及时的。基于LLM的通用应用程序的开发周期通常包括三个阶段:a)LLM的选择,b)应用程序的迭代开发,以及c)应用程序的操作部署。各种论文[6,7]中讨论的对LLM本身的评估超出了本文的范围。然而,需要注意的是,基础LLM的质量是有效利用其功能并在最终应用中最小化风险的基本组成部分。对于应用程序,开发人员可以遵循不同的开发方法(例如,微调、链接、提示、检索增强生成(RAG)、结合知识图的LLM搜索等)。)并且每种方法都需要定制的评估步骤,例如微调或提示风格中使用的数据质量[8],或者RAG中的块大小和数量[9]。本文探讨了评估基于LLM的聊天机器人生成的最终响应(即输出)的三种基本方法,即自动度量、人工评估和基于LLM的评估。关于人工评估,我们研究了优先评估和因子评估方法。
背景
聊天机器人以解决用户查询的方式与用户交互。一些聊天机器人是特定领域的[10],而另一些是通用聊天机器人[11]。评估聊天机器人很大程度上取决于聊天机器人的预期用途和专业化程度。在回顾关于这一主题的16篇论文时,我们总结了评估中需要注意的几个关键组成部分;其中,聊天机器人预期目的的明确定义(例如,用例-指定业务目标或客户期望,以及用户与应用程序的交互)至关重要。这种清晰性有助于集中评估聊天机器人是否达到其指定目的。
表1中描述的组件表明,聊天机器人可以在不同的因素(也称为因素或维度)上进行评估,例如它们完全回答用户查询的能力,它们的语言有效性,以及它们回忆信息的能力(通过信息检索或记忆)。其他指标可能包括系统的响应时间、可用性和直观性。
目前,还没有足够健壮的通用方法或公认的最佳实践来评估基于LLM的应用程序。正如几乎所有关于该主题的先前工作所指出的,一个显著的挑战是对适当的评估标准和度量缺乏共识。因此,研究人员和开发人员有责任选择最适合其独特应用的评估方法。这种责任不仅会增加开发时间,还会导致统计评估不足[12,13]。自动化度量的一个突出问题是它们与结果不一致,并且可能不总是与人类评估相关联。但是许多人仍然喜欢在评估中使用它们,因为它们容易获得,也容易重复[14,15,16,17,18]。这与人类评估的情况不同,它是昂贵的,并且即使使用相同的人类,在相同的环境中也不可重复[19,13,20]。我们必须承认在评估阶段使用的生成式人工智能模型的工作,例如ChatEval、GPTScore和ARES [21、22、23],它们是线性模型的新应用。[24]讨论了“bot-play ”,即将一个已经评估过的LLM用于评估一个新的未评估的LLM。当考虑基于LLM的评估者时,必须确保评估者LLM在给定阈值内做出可接受的准确决策。
尽管经常有不充分结果的报告,人类评估仍然是研究中最广泛接受的评估形式[25,13]。已经进行了几次尝试来标准化人类评估方法[26,20],但是其昂贵的性质经常导致研究人员报告统计能力不足的系统。此外,据报道,人类评估者对问题框架(消极或积极框架)的敏感性会影响结果[27]。对于会话或对话系统,人类评估的通用标准是李克特量表上的质量。质量会因任务而异,它包含多个因素,如正确性、相关性、信息性、一致性、理解等。[19].[13]建议使用最少100个5分或7分的李克特量表来评估多个维度。这似乎是一个难以实现的目标,因为人类评价的本质。
表1中LLM供电应用的评估组件非常昂贵
图2聊天机器人回答问题的屏幕截图
专家意见的可变性导致了对改进人类评估方法的多种建议。建议至少聘请四位专家,但为了获得可靠的结果,更多专家更为可取[20]。然而,使用专家评估并不总是有效的,特别是如果系统不是为专家使用而设计的[25]。在可用专家数量有限的情况下,比较(也称为优先)评估方法往往是首选。此外,建议让大约10到60名非专家用户(系统的预期最终用户)参与评估过程,并确保注释者间协议(IAA)报告的可靠性(最佳实践参见[13]中的表3)。还必须使用没有参与谈话的外部评估者来判断谈话[19]。[28]讨论了解释人类评估的复杂性;注意到具有不同专业水平的个人可以对相同的反应提供不同的评估,这再次显示了雇用许多具有不同专业水平的人来完全评估这样的系统的重要性。
在总结来自评论研究文章的见解时,很明显,人工评估仍然是聊天机器人系统评估管道中常见和不可或缺的元素,尽管在不同的阶段实施。此外,经常使用不同的度量选择来评估聊天机器人响应的各个方面。利用评估者LLM似乎是一种有前途的方法,值得探索,因为它有潜力提供高效和可扩展的评估。虽然目前的重点是评估,但一个经常被忽视的潜在关键因素是用于测试和评估的数据的性质,许多论文缺乏对聊天机器人提出的问题类型的具体说明。我们认为,结合认知心理学框架(如Bloom的分类学)提供的一系列问题类型,可以显著增强对聊天机器人响应的系统评估以及从这种评估中获得的洞察力。
为了试验评估过程,我们首先实现了一个聊天机器人(图2)。这种实现遵循行业标准,如检索增强生成(RAG)、矢量数据库等。创建一个聊天机器人。聊天机器人EdTalk旨在通过利用LLM的能力来帮助用户导航和理解冗长的报告,其目标是尽量减少幻觉,并严格遵守其知识库中的事实信息。这个聊天机器人的目标是使教育报告,如教育状况,为广大读者所用。因此,聊天机器人的知识库是根据上述报告建立的。通过评估EdTalk,我们调查这个聊天机器人是否符合其最初的目标。同时,我们发现聊天机器人是否能够始终如一地遵循布鲁姆分类法中各种不同类型问题的目标。随后,我们比较了各种评估程序的结果,包括自动的、人工的和基于LLM的评估程序,以找到关于这个聊天机器人的开发的更多信息。
评估程序
我们知道聊天机器人,像任何软件一样,将有一个迭代的实现,开发者将更新组成聊天机器人的组件。需要评估每个组件和整个系统的可靠性和性能。在这我们深入研究了我们进行的各种评估程序,并简要说明了它们是如何实施的。但是我们只关注基于话语的评价;这意味着我们将只研究为观察聊天机器人的反应而构建的程序。其他组件性能,如RAG中用于检索的语义搜索,不在本次调查的范围内。
为了进行评估,我们雇佣了5个人。最初,人类评估者之一,有权访问要评估的内容,基于Bloom的分类法生成40个问题[29]。采用布鲁姆分类法的目的是确定聊天机器人在回答不同类型问题时的效率。这种方法为评估过程增加了另一个独特的维度,使我们能够评估聊天机器人对不同类型问题的响应质量。应该注意的是,评估中使用的具体问题取决于chatbot实现的用例,本文中没有披露。然后,两个人(以下称为注释者)写下了他们自己对上述问题的回答。稍后,另一对评估者确定响应的质量。两对都由一个专家和一个新手组成。专家是已经处理这些报告超过2年的人,新手是该领域的新手,但对内容有一些经验。
自动化评估选择自动化评估模型是一个关键步骤。由于文献指出的问题,我们不选择基于n-gram的方法,因此,我们利用基于嵌入的方法。在这方面,我们认为BLUERT [17]是最好的选择。我们不能忘记,这种方法有时仍然会产生不一致的结果,但事实上可重复的,它可以在快速开发阶段用于测试诸如块大小、重叠大小等参数。BLEURT需要参考文本和生成文本来计算相似性,并且[17]建议使用特定的检查点来实现最佳比较1,参考文本(专家响应)和生成文本(生成响应)的示例在表2中给出。使用BLEURT评估聊天机器人的响应是否类似于注释器是很简单的。
人类评估另一方面,人类评估有点复杂。存在传统的人类评估,其通常是对人类更喜欢什么样的响应的优先评级。虽然这是一个可接受的衡量标准[13],但它仍然可能会错过结果的洞察力。我们首先进行这种传统的优先评估来开始人工评估。人类不需要成为该领域的专家来进行这种类型的评估[25]。然后,我们招募评估者对聊天机器人对之前创建的问题的回答进行评级。
表2教育状况报告2023的场景,示例问题,注释者专家响应,生成的响应。在BLEURT评估中使用了类似的响应对
将根据几个因素进行评级[22,13]。我们仔细选择这些因素,以便我们可以有效地评估聊天机器人的许多方面,其中许多选择的因素是受[13]的启发。我们开发了一个基于5点李克特量表的问卷,从中收集专家对聊天机器人回答的评级。在评估人员之前给出了如何进行评级的说明。表3显示评估者在对标准的回答进行评级之前应该问什么问题。建立这些标准是为了以最清晰和简洁的方式给出包含所有准确和相关信息的响应,而没有不必要的信息。我们也把幻觉考虑在内。这涵盖了生成式人工智能应用程序应该寻找的大多数质量标准。评估者也可以自由地引用问题所基于的文本,但是我们没有向评估者提供之前的注释者响应。我们给出了一些问题和回答的评级示例,这些问题和回答不属于以上选择的40个问题和回答,包括评级1、3和5的示例。评估者可以自由决定如何分配中间等级。
基于LLM的评估正在讨论的评估程序是一个相对较新的程序,与人工评估相比,目前可用于支持其可靠性的文献有限。本研究的目的是通过比较基于人的评估和基于LLM的评估,为现有文献做出贡献。研究人员使用给予人类评估者的相同指示来提示LLM进行评估。此外,提供了每个李克特量表值的示例,以确保LLM与评估标准一致,这是人类说明之间的唯一差异,因为人类不会收到所有李克特量表的示例。按照[23]提出的方法,评估提示包括问题、从内容中检索的事实以及聊天机器人生成的响应。每次针对给定的因素对响应进行评估,并对生成的评估响应进行处理,以从LLM中提取相似的Likert量表。LLM评估者不能访问在自动化评估步骤中创建的注释者响应,但是LLM评估者可以访问文档的内容。这使得研究人员能够以类似的方式将基于LLM的评估与人类评估进行比较。
结果
在这一部分中,对所有评估程序的结果进行了比较和对比。目的是了解从每个实验中学到了什么,并确定每种方法的优缺点。布鲁姆的分类法用于进行比较,但分类法中的具体类型在本书中没有解释。
表4显示了自动评估实验获得的结果。正如我们在前面的章节中所解释的,这里我们使用BLEURT [17]作为度量来计算生成的响应与人类书面回答的相似性。如果人的书面反应容易得到,这种评估可以迅速进行。这意味着人们只需要编写一次响应,在应用程序的参数改变后,可以重复运行评估。不清楚在使用多个参考文本的情况下,如何比较类似任务的两个BLEURT分数。在检查和比较BLEURT值时,注意到对于某些问题类型,专家和新手属于相似的范围。对于两个人来说,生成的响应在评估问题中具有较低的相似性。对于应用题,专家相似度为0.44,新手相似度为0.24。据报道,两个人在理解问题上有最高的相似性。
我们首先通过偏好评级来进行传统的人工评估,这种类型的评估不需要领域专家来进行评估,并且与其他人工评估方法相比要快得多。在这里,我们发现聊天机器人的答案只有47%(平均)的时候是首选的,表5显示了按相同的Bloom分类类型划分的结果。这一衡量标准并没有揭示出哪些方面需要改进才能表现得更好。这就是为什么社区更喜欢分解的人类评估。表7报告了人类和LLM程序中因子化评估的结果。由于我们使用李克特量表来获取评级,我们通过每个因素和问题类型的中位数来报告结果。可视化的结果显示在图1中,图1清楚地显示了强调新手和专家在反应分析方法上的显著差异。该图强调了在认知过程和信息解释中识别个体差异的重要性。
表3李克特量表问卷的标准
表4自动评估结果;将每个生成的答案与人(专家或新手)进行比较,并报告BLEURT分数
表5偏好评级评估中生成的响应的偏好百分比
表6使用Krippendorff的alpha的人类注释者的协议
使用分解的人工评估过程,我们能够实验性地找出以前难以捉摸的关于生成应用的事实。当我们最初进行琐碎的自动化和人工评估(优先)时,如果我们不将问题分解到Bloom的分类法,我们只能得到一个衡量标准来测试聊天机器人是否在可接受的应用程序的参数内工作。这通常不足以理解LLM潜在的复杂问题,以及它们是否存在于LLM驱动的应用程序中。RAG系统是为了检索上下文中可用的信息而构建的。这意味着,当被问及记忆问题时,他们必须表现得很好,但是专家的结果显示;EdTalk在记忆问题上表现不佳(表7和图1)。这也表明聊天机器人的回答不够一致,不能说出任何与其他问题类型相关的内容。
这一结果表明,虽然垃圾聊天机器人应该很擅长回答基于检索的问题从人类的角度来看,它们有时并不像预期的那样工作。我们还注意到,BLEURT的自动评估也显示了每种问题类型的相似模式,但当我们考虑新手时,相似性不再存在。这种评估的一个优点是,我们现在可以检查评分者之间的可靠性,我们在表6中显示了这一点。我们注意到许多以前的工作指出的主要问题,人类在他们的评论中没有达成一致。同样,通过将问题分类成因素,我们注意到人类的一致性在清晰度上是中等的,但是所有其他因素都是低一致性的。我们在这里注意到的一个缺点是重复评估工作的能力,如果我们改变问卷中问题的顺序或框架,同样的人可能会对这些回答进行不同的评级[13,25]。
表7系数化评估结果;问题类型的中位数。越高越好。
讨论
这项工作的目标是说明评估一个基于LLM的应用程序是多么具有挑战性,尤其是评估一个使用当前方法的聊天机器人,包括自动化、人工和LLM程序。我们首先证明这三种方法各有利弊。我们还注意到从所有三种评估程序中获得的结果的差异,这些结果之间几乎没有相关性,因此很难建议使用哪一种。我们还观察到,专家的评估结果有点严格,导致许多因素的得分普遍较低。新手从有利的角度看待聊天机器人,我们注意到分数略有上升。使用LLM来评估聊天机器人的响应似乎不可靠,因为LLM给自己的响应评分很高。在我们的实验案例中,我们使用相同的LLM (GPT-3.5)来生成响应,也作为评估LLM。
正如[24]所指出的,这不是理想的设置。在[24]中,作者指出,如果没有对LLM进行评估,则必须使用已经评估过的LLM或更高阶的LLM对其进行评估。鉴于这种不确定的评估来自任何程序的情况,我们不应该分散读者对评估的需要。为了提高评估的可靠性,我们建议增加因子人体评估中使用的人体数量。此外,广泛征求专家意见将会产生一个平滑的结果预览;然而,这将增加评估的费用。正如[13]所建议的,招募大量聊天机器人的意向用户仍然不是理想的,因为这些用户可能会混淆什么是正确的,什么是错误的。允许未经训练的人对这些因素做出判断不会产生最准确的结果,类似于图1中LLM结果的情况。
一个决定性因素是重复性和一个人对聊天机器人进行评估的资金量。在这方面,我们注意到,虽然自动化程序是可重复的,但这些指标的低可靠性不利于它们。人类的评价被认为是黄金标准,虽然这可能是真的,但研究表明,人类的分歧是一个更大的问题;我们还注意到表6中显示的这个问题。LLM评估器是LLM的一个新版本,它现在最大的对手是没有足够的研究来支持它的可靠性。我们观察到,在某些情况下,LLM评估者与人类评估者有相似的反应。
但情况并非总是如此,在大多数情况下,LLM评估者倾向于对正确的回答过于自信。我们不能拒绝LLM评估者的承诺,因为我们可以设置不同的个性,并迅速采取不同版本的评估[21],但这也必须是否具有这种专长的人会以相似的方式对相同的反应进行评级。需要进行进一步的研究来了解LLM如何帮助我们评估LLM。