北航:LLM长文本生成基准HelloBench

在这里插入图片描述

📖标题:HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models
🌐来源:arXiv, 2409.16191

摘要

🔸近年来,大型语言模型(LLMs)在各种任务(如长上下文理解)中表现出了显著的能力,并提出了许多基准测试。然而,我们观察到,长文本生成能力没有得到很好的研究。
🔸因此,我们引入了分层长文本生成基准(HelloBench),这是一个全面的、在野外的、开放式的基准,用于评估LLM在生成长文本方面的性能。基于Bloom的分类法,HelloBench将长文本生成任务分为五个子任务:开放式QA、摘要、聊天、文本完成和启发式文本生成。
🔸此外,我们提出了分层长文本评估(HelloEval),这是一种与人类对齐的评估方法,可以显著减少人类评估所需的时间和精力,同时保持与人类评估的高度相关性。
🔸我们在大约30个主流LLM上进行了广泛的实验,发现目前的LLM缺乏长文本生成能力。具体来说,首先,无论指令包含显式还是隐式长度约束,我们都观察到大多数LLM无法生成超过4000个单词的文本。其次,我们观察到,虽然一些LLM可以生成更长的文本,但存在许多问题(例如,严重的重复和质量下降)。第三,为了证明HelloEval的有效性,我们将HelloEval与传统的度量(如ROUGE、BLEU等)和LLM作为判断方法进行了比较,结果表明HelloEval和人类评价的相关性最高。代码开源在https://github.com/Quehry/HelloBench.

🛎️文章简介

🔸研究问题:如何构建一个全面、真实场景且开放式的基准来评估大语言模型(LLM)生成长文本的能力?
🔸主要贡献:论文提出了HelloBench,基于层次化长文本生成基准,并引入了HelloEval,一种与人类评估高度一致的评估方法。

📝重点思路

🔺相关工作

🔸LLM长上下文能力:LongBench是首个长上下文理解的双语、多任务基准,YaRN基于RoPE增强长文本能力,Longlora高效的微调等。
🔸LLM长文本生成能力:包括故事生成 、存储库级代码补全、文档生成等任务,LongWriter致力于评估长文本生成。

🔺论文方案

🔸HelloBench构建:基于Bloom’s Taxonomy的六个认知层次(记忆、理解、应用、分析、评估、创造),设计了五个任务(开放式问答、总结、聊天、文本补全、启发式文本生成),并收集了647个样本,涵盖5个类别和38个子类别。
🔸HelloEval评估:两个阶段 ①准备阶段,为每个子类设计了4-6个检查清单并人工判断是否满足,使用线性回归来拟合检查表的加权分数 ②执行阶段,使用LLM-as-a-Judge来评估检查清单的结果,然后使用检查清单的加权分数得出总分。
🔸实验分析:对约30个开源和专有的LLM进行了不同任务的比较,评估长文本生成方面的表现,并分析错误模式。

🔎分析总结

🔸当前表现良好的LLM在字数方面有很大的限制,或者更喜欢生成较短的文本。
🔸LLM在生成超过4000字时表现不佳,输出长度通常限制在2000字左右,经过训练后能有所提升。
🔸一些开源LLM虽然能生成长文本,但文本质量显著下降,存在严重重复。
🔸在不同任务中,LLM在摘要和聊天任务上的表现较差,而在开放式问答和文本补全任务上的表现相对较好。
🔸HelloEval与传统指标和LLM-as-a-Judge相比,与人类评估具有最高的相关性。

💡个人观点

论文的核心是建设了长文本基准测试和评估方法。

附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大模型任我行

随意啦,喜欢就好~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值