北航：LLM长文本生成基准HelloBench-CSDN博客

本文链接：https://blog.csdn.net/weixin_46739757/article/details/142700572

在这里插入图片描述

📖标题：HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models
🌐来源：arXiv, 2409.16191

摘要

🔸近年来，大型语言模型（LLMs）在各种任务（如长上下文理解）中表现出了显著的能力，并提出了许多基准测试。然而，我们观察到，长文本生成能力没有得到很好的研究。
🔸因此，我们引入了分层长文本生成基准（HelloBench），这是一个全面的、在野外的、开放式的基准，用于评估LLM在生成长文本方面的性能。基于Bloom的分类法，HelloBench将长文本生成任务分为五个子任务：开放式QA、摘要、聊天、文本完成和启发式文本生成。
🔸此外，我们提出了分层长文本评估（HelloEval），这是一种与人类对齐的评估方法，可以显著减少人类评估所需的时间和精力，同时保持与人类评估的高度相关性。
🔸我们在大约30个主流LLM上进行了广泛的实验，发现目前的LLM缺乏长文本生成能力。具体来说，首先，无论指令包含显式还是隐式长度约束，我们都观察到大多数LLM无法生成超过4000个单词的文本。其次，我们观察到，虽然一些LLM可以生成更长的文本，但存在许多问题（例如，严重的重复和质量下降）。第三，为了证明HelloEval的有效性，我们将HelloEval与传统的度量（如ROUGE、BLEU等）和LLM作为判断方法进行了比较，结果表明HelloEval和人类评价的相关性最高。代码开源在https://github.com/Quehry/HelloBench.

🛎️文章简介

🔸研究问题：如何构建一个全面、真实场景且开放式的基准来评估大语言模型（LLM）生成长文本的能力？
🔸主要贡献：论文提出了HelloBench，基于层次化长文本生成基准，并引入了HelloEval，一种与人类评估高度一致的评估方法。

📝重点思路

🔺相关工作

🔸LLM长上下文能力：LongBench是首个长上下文理解的双语、多任务基准，YaRN基于RoPE增强长文本能力，Longlora高效的微调等。
🔸LLM长文本生成能力：包括故事生成、存储库级代码补全、文档生成等任务，LongWriter致力于评估长文本生成。

🔺论文方案

🔸HelloBench构建：基于Bloom’s Taxonomy的六个认知层次（记忆、理解、应用、分析、评估、创造），设计了五个任务（开放式问答、总结、聊天、文本补全、启发式文本生成），并收集了647个样本，涵盖5个类别和38个子类别。
🔸HelloEval评估：两个阶段 ①准备阶段，为每个子类设计了4-6个检查清单并人工判断是否满足，使用线性回归来拟合检查表的加权分数 ②执行阶段，使用LLM-as-a-Judge来评估检查清单的结果，然后使用检查清单的加权分数得出总分。
🔸实验分析：对约30个开源和专有的LLM进行了不同任务的比较，评估长文本生成方面的表现，并分析错误模式。

🔎分析总结

🔸当前表现良好的LLM在字数方面有很大的限制，或者更喜欢生成较短的文本。
🔸LLM在生成超过4000字时表现不佳，输出长度通常限制在2000字左右，经过训练后能有所提升。
🔸一些开源LLM虽然能生成长文本，但文本质量显著下降，存在严重重复。
🔸在不同任务中，LLM在摘要和聊天任务上的表现较差，而在开放式问答和文本补全任务上的表现相对较好。
🔸HelloEval与传统指标和LLM-as-a-Judge相比，与人类评估具有最高的相关性。