题目
G-EVAL:使用GPT-4进行NLG评估,具有更好的人类一致
论文地址:https://arxiv.org/abs/2303.16634
项目地址:https://github.com/nlpyang/geval
摘要
自然语言生成(NLG)系统生成的文本质量难以自动测量。传统的参考指标,如BLEU和ROUGE,已被证明与人类判断的相关性相对较低,特别是对于需要创造力和多样性的任务。最近的研究建议使用大型语言模型(llm)作为NLG评估的无参考指标,其优点是适用于缺乏人类参考的新任务。然而,这些基于LLM的评估器仍然比中等大小的神经评估器具有更低的人类对应性。在这项工作中,我们提出了G-EVAL,这是一个使用具有思维链(CoT)和表单填充范式的大型语言模型的框架,用于评估NLG输出的质量。我们实验了两个生成任务,文本摘要和对话生成。我们发现,以GPT-4为骨干模型的G-EVAL与人类总结任务的Spearman相关性为0.514,大大优于之前的所有方法。我们还建议对基于LLM的评估者的行为进行分析,并强调基于LL,的评估者对LLM生成的文本有偏见的潜在担忧。
评估自然语言生成系统的质量是一个具有挑战性的问题,大型语言模型可以生成高质量的语言,不同的文本往往难以区分来自人类书写的文本。传统的自动指标,如BLEU、ROUGE 和METEOR被广泛使用但它们与人类判断的相关性相对较低,特别是对于开放式生成任务。此外,这些指标需要相关的参考输出,为新任务收集这些输出的成本很高。最近的研究建议直接使用llm作为无参考NLG评估器。我们的想法是使用LLM在没有任何参考目标的情况下,根据候选输出的生成概率对其进行评分,假设LLM已经学会了为高质量和流畅的文本分配更高的概率。然而,使用llm作为NLG评估器的效度和信度尚未得到系统的研究。此外,元评价表明,这些基于LLM的评估器与中等规模的神经评估器相比,人类的对应程度仍然较低。因此,需要一个更有效和可靠的框架来使用llm进行NLG评估。
在本文中,我们提出了G-EVAL,这是一个使用具有思维链(CoT)的LLM的框架,用于评估表单填充范式中生成文本的质量。通过只提供任务介绍和评估标准作为提示,我们要求LLM生成详细评估步骤的CoT。然后,我们使用提示符和生成的CoT来评估NLG输出。计算器输出被格式化为表单。此外,输出评级令牌的概率可用于改进最终指标。我们在两个NLG任务:文本摘要和对话生成的三个元评价基准上进行了广泛的实验。结果表明,在与人类评价的相关性方面,G-EVAL可以大大优于现有的NLG评价器。最后,我们对基于LLM的评估者的行为进行了分析,并强调了基于LLM的评估者对LLM生成的文本存在偏见的潜在问题。
G-EVAL的总体框架。我们首先向LLM输入任务介绍和评估标准,并要求它生成详细评估步骤的CoT。然后,我们使用提示和生成的CoT来评估表单填充范式中的NLG输出。最后,我们使用输出分数的概率加权和作为最终分数。
综上所述,本文的主要贡献有:
- 在与人类质量判断的相关性方面,基于LLM的度量标准通常优于基于参考和无参考的基线度量标准,特别是对于开放式和创造性的NLG任务,例如对话响应生成。
- 基于llm的度量对指令和提示很敏感,并且思维链可以通过提供更多的上下文和指导来提高基于llm的评估者的性能。
- 基于llm的度量可以通过各自的令牌概率重新加权离散分数来提供更细粒度的连续分数。</