G-EVAL: NLG Evaluation using GPT-4 with Better Human Alignment

最新推荐文章于 2024-10-18 12:04:16 发布

三月七꧁ ꧂

最新推荐文章于 2024-10-18 12:04:16 发布

阅读量2k

点赞数 30

分类专栏：论文合集--bloom 文章标签： prompt 语言模型 gpt 人工智能 chatgpt AIGC 文心一言

本文链接：https://blog.csdn.net/weixin_43961909/article/details/140840676

版权

文章目录

- 题目
- 摘要
- 方法
- 实验
- 分析
- 相关工作
- 结论

题目

G-EVAL:使用GPT-4进行NLG评估，具有更好的人类一致

在这里插入图片描述

论文地址：https://arxiv.org/abs/2303.16634
项目地址：https://github.com/nlpyang/geval

摘要

自然语言生成(NLG)系统生成的文本质量难以自动测量。传统的参考指标，如BLEU和ROUGE，已被证明与人类判断的相关性相对较低，特别是对于需要创造力和多样性的任务。最近的研究建议使用大型语言模型(llm)作为NLG评估的无参考指标，其优点是适用于缺乏人类参考的新任务。然而，这些基于LLM的评估器仍然比中等大小的神经评估器具有更低的人类对应性。在这项工作中，我们提出了G-EVAL，这是一个使用具有思维链(CoT)和表单填充范式的大型语言模型的框架，用于评估NLG输出的质量。我们实验了两个生成任务，文本摘要和对话生成。我们发现，以GPT-4为骨干模型的G-EVAL与人类总结任务的Spearman相关性为0.514，大大优于之前的所有方法。我们还建议对基于LLM的评估者的行为进行分析，并强调基于LL,的评估者对LLM生成的文本有偏见的潜在担忧。

评估自然语言生成系统的质量是一个具有挑战性的问题，大型语言模型可以生成高质量的语言，不同的文本往往难以区分来自人类书写的文本。传统的自动指标，如BLEU、ROUGE 和METEOR被广泛使用但它们与人类判断的相关性相对较低，特别是对于开放式生成任务。此外，这些指标需要相关的参考输出，为新任务收集这些输出的成本很高。最近的研究建议直接使用llm作为无参考NLG评估器。我们的想法是使用LLM在没有任何参考目标的情况下，根据候选输出的生成概率对其进行评分，假设LLM已经学会了为高质量和流畅的文本分配更高的概率。然而，使用llm作为NLG评估器的效度和信度尚未得到系统的研究。此外，元评价表明，这些基于LLM的评估器与中等规模的神经评估器相比，人类的对应程度仍然较低。因此，需要一个更有效和可靠的框架来使用llm进行NLG评估。

在本文中，我们提出了G-EVAL，这是一个使用具有思维链(CoT)的LLM的框架，用于评估表单填充范式中生成文本的质量。通过只提供任务介绍和评估标准作为提示，我们要求LLM生成详细评估步骤的CoT。然后，我们使用提示符和生成的CoT来评估NLG输出。计算器输出被格式化为表单。此外，输出评级令牌的概率可用于改进最终指标。我们在两个NLG任务：文本摘要和对话生成的三个元评价基准上进行了广泛的实验。结果表明，在与人类评价的相关性方面，G-EVAL可以大大优于现有的NLG评价器。最后，我们对基于LLM的评估者的行为进行了分析，并强调了基于LLM的评估者对LLM生成的文本存在偏见的潜在问题。

在这里插入图片描述