Ada-LEval:评估长文本处理能力的新型基准测试

随着大模型(LLMs)的快速发展,它们在处理长篇文本方面的能力得到了显著提升。然而,现有的基准测试,如L-Eval和LongBench,主要集中于问答(QA)和摘要生成任务,并且这些测试集中的样本长度不一,难以评估模型在不同长度范围内的能力。此外,它们并未覆盖到最新的LLMs声称能够处理的超长文本设置(超过100k+个token)。为了更精确地评估LLMs在长文本处理方面的能力,本文介绍了Ada-LEval,一个可调节长度的基准测试,用于评估LLMs的长文本理解能力。

Ada-LEval基准测试包括两个挑战性子集:TSort和BestAnswer,这两个任务都需要模型对全文进行深入理解和推理。TSort任务要求模型将乱序的文本段落重新排序,而BestAnswer任务则要求模型在多个候选答案中选择最佳答案。这两个任务的设计允许精确控制测试案例的长度,并且可以轻松生成长达128k个token的文本样本。

Ada-LEval中引入的两个任务:TSort和BestAnswer。TSort任务要求模型对乱序的文本段落进行排序,BestAnswer任务要求模型从多个候选答案中选择最佳答案。

TSort任务要求模型处理由N个文本段落构成的输入,这些段落原本是一本书中连续的章节,但被打乱了顺序。模型的目标是识别出这些段落正确的顺序,并按原始顺序重新排列它们。这个任务考验了模型对文本连贯性的理解,以及它能否在处理大量信息时保持对细节的敏感性。为了增加难度,测试中的段落不仅要求模型理解每个段落的内容,还需要它们把握段落之间的关系和整体叙事流程。例如,如果段落涉及一个故事的发展,模型必须识别出故事发展的逻辑顺序。只有当模型能够准确无误地将所有段落按照它们原本的顺序排列时,它的回答才被视为正确,这要求模型具有极高的记忆和推理能力。

BestAnswer任务则是另一种类型的挑战,它提供了一个问题和多个可能的答案。在这种情况下,模型的任务是从一个大型的候选答案池中识别出“最有帮助的答案”。这个答案是由原始提问者指定的,它可能包含了对问题最直接、最准确或最详细的解答。模型必须在理解问题的基础上,评估每个答案的相关性和准确性,然后选择最合适的一个。这个任务考验了模型的判断力和辨别力,以及它在处理大量信息时能否保持专注并做出精确的选择。与TSort任务不同,BestAnswer更侧重于评估模型对信息的相关性和质量的评估能力。

在BestAnswer任务中,模型面对的挑战是如何在众多干扰项中准确找到正确答案。这要求模型不仅要理解问题,还要理解每个答案的内容,并比较它们之间的差异。模型需要有能力识别出哪个答案最直接地解决了问题,或者哪个答案提供了最全面的信息。例如,如果一个问题有五个可能的答案,模型需要阅读并分析每个答案,然后确定哪个是最佳答案。这个任务对模型的理解和推理能力提出了很高的要求,尤其是在答案数量庞大时。

在这两个任务中,Ada-LEval基准测试提供了一种有效的方式来评估语言模型在处理长文本方面的性能。通过控制测试案例的长度和复杂性,研究人员可以精确地测量和比较不同模型在长文本理解方面的能力。这些任务的设计不仅挑战了模型的现有能力,同时也为未来模型的发展提供了明确的方向。

对于TSort任务,数据收集自Booksum,这是一个专门用于长文本摘要的数据集。Booksum的特别之处在于它基于Project Gutenberg项目,这是一个拥有超过60,000本免费电子书的公共图书库。Project Gutenberg的书籍种类繁多,包括小说、剧本、短篇故事等,几乎涵盖了所有的文学体裁。然而,为了确保TSort任务的连贯性和模型能够处理的文本类型,像书信体文学和诗歌这样非顺序性质的文本被排除在外。Booksum从这些书籍中提取连续的章节,并将它们用于构建TSort任务的数据集。这样做的目的是为了提供一个具有实际连贯性的文本序列,让模型必须理解章节之间的上下文关系,才能正确地完成排序任务。

BestAnswer任务的数据来源则完全不同,它利用了Stack Overflow上的线程。Stack Overflow是一个广为人知的平台,主要围绕编程相关的各种问题和答案。这个平台上的问题通常会被贴上多个标签,这些标签指示了问题之间的主题相似性。为了确保BestAnswer基准测试的质量和多样性,开发者从Stack Overflow中选择了23个不同的标签,涵盖了如JavaScript、Python、C++等多种编程语言。然后,他们根据每个标签的热度,收集了前2500个问题。这样做可以确保收集到的问题不仅具有高度的相关性,而且覆盖了广泛的编程主题和难题。通过这种方式,BestAnswer任务能够提供一个丰富的问题和答案集合,用以测试模型在处理编程领域长文本时的理解和推理能力。

通过从Booksum和Stack Overflow这样的不同来源收集数据,Ada-LEval基准测试能够全面评估语言模型在处理不同类型的长文本方面的能力。这种多样化的数据收集策略有助于确保基准测试不仅挑战模型的现有能力,同时也能够为模型的进一步发展提供有价值的见解。

测试案例的构建首先需要确定不同长度设置的范围。在Ada-LEval中,这个范围从1k(一千个token)一直到128k(十二万八千个token),覆盖了从长文本到超长文本的多种情况。这样的设计允许研究人员和开发人员系统地评估和比较模型在不同文本长度下的表现。

表1提供了TSort和BestAnswer任务的数据统计信息,这些统计数据对于理解基准测试的规模和复杂性至关重要。表中列出了不同设置下构建的测试案例数量、最大token数量和平均token数量。

对于TSort任务,测试案例由N个从书中连续章节中提取的乱序文本段落构成。在构建这些测试案例时,开发者需要确保每个文本段落都是完整的,没有在段落中间被切断。为了增加上下文的连贯性,测试案例中还会包括段落前后的邻近段落。此外,为了构建不同内容的测试案例,开发者在构建过程中设置了不同的起始段落跨度。在添加了指令后,还会进一步筛选出超出token上限的测试案例。

BestAnswer任务的测试案例构建则涉及到从Stack Overflow收集的问题和答案。每个测试案例包括一个问题和多个可能的答案,其中原始提问者指定的“最有帮助的答案”被作为正确答案。为了构建不同长度的测试案例,开发者会根据问题的相似性标签来选择和添加干扰项答案。在长文本设置下,测试案例的token长度从1k到16k不等,而在超长文本设置下,测试案例的token长度则扩展到32k、64k和128k。

在构建测试案例时,开发者还特别注意保持问题的一致性,无论案例的长度如何,问题本身保持不变。这样做的目的是为了确保不同长度设置下的评估结果具有可比性。此外,在超长文本设置下,由于相似问题和答案的数量有限,开发者放宽了标签相似性的限制,允许来自标签相似度较低的问题的答案作为干扰项。

通过这种细致的测试案例构建方法,Ada-LEval基准测试不仅能够评估模型在不同文本长度下的表现,还能够揭示模型在处理长文本时可能遇到的挑战,如记忆限制、理解深度和信息整合能力等。这些评估结果对于指导未来LLMs的改进和发展具有重要意义。

TSort任务的评估中,结果显示即使是最先进的专有模型,在面对16,000个token的文本长度时,其预测的正确性也下降到了随机猜测的水平。具体来说,GPT-4-Turbo模型在2,000到8,000个token的设置下,能够以显著高于随机猜测的概率输出文本的正确顺序。然而,当文本长度增加到16,000个token时,即便是这样的高端模型也难以维持其性能,其预测准确率下降到了与随机猜测相当的水平。其他包括开源和专有模型在内的LLMs,在所有测试的长度设置下,其性能与随机猜测相比没有显著差异,表明TSort任务对现有LLMs来说是一个巨大的挑战。

BestAnswer任务的评估结果则显示了不同的性能差异。GPT-4-Turbo在16k长文本设置下达到了44.5%的准确率,这一结果远高于其他模型,并且在存在大约100个干扰答案的情况下,仍能识别出最有帮助的答案。而其他专有模型,如Claude-2,在16k设置下达到了11%的准确率,位列第二。GPT-3.5-Turbo-1106虽然在较短的设置下(2k, 4k, 6k)表现优于Claude-2,但在16k设置下的性能却与随机猜测相似。开源模型与专有模型在BestAnswer任务上的性能差距相当大,一些模型如Vicuna-13b-v1.5-16k和InternLM2-7b虽然在较短设置下表现良好,但在文本长度变大时,它们的准确率显著下降。

进一步的错误分析揭示了现有LLMs的两个主要问题:一是模型未能遵循提供的指令,导致输出了无效答案;二是模型虽然输出了有效答案,但仅仅是复制了上下文中提供的示例答案,而不是基于对整个文本内容的理解来选择最佳答案。这些问题表明,尽管LLMs在某些情况下能够展示出对长文本的理解,但它们在遵循复杂指令和处理超长文本方面仍然存在局限。

超长文本设置下的评估结果显示,即使是声称能够理解长达100,000+个token文本的模型,其性能也出现了显著下降。在TSort任务中,GPT-4-Turbo能够达到随机猜测水平的准确率,而Claude模型则未能给出任何正确答案。在BestAnswer任务中,所有三个模型在文本长度从16k增加到32k时性能急剧下降,且在文本长度超过32k时无法给出任何正确答案。

表2展示了TSort任务在长文本设置下的评估结果。在这个任务中,评估的难点在于模型必须准确地将4个乱序的文本段落(N=4)重新排序,以恢复它们原本的顺序。在这个设置中,模型的表现被与随机猜测的基线进行比较。如果模型的准确率接近或低于4.2%,则意味着其性能与随机猜测相当,这表明模型并没有展示出对文本段落顺序的理解和处理能力。相反,如果模型的准确率远高于这个比例,则表明它具备了处理长文本和理解其内在逻辑的能力。

评估结果显示,即使是最先进的模型,在长文本处理上也面临着巨大挑战。特别是当文本长度增加时,模型维持高性能的能力会下降。这强调了对长文本处理能力进行评估的重要性,以及需要进一步研究和改进LLMs在处理长篇连续文本方面的性能。

表3提供了BestAnswer任务在长文本设置下的评估结果。在这个任务中,每个问题都有N个候选答案,模型需要从中选择一个最合适的答案。这个设置下,模型必须理解问题及其候选答案的相关性,才能从众多选项中挑选出最佳答案。评估结果显示,即便是在长文本环境中,一些先进的模型如GPT-4-Turbo仍能展现出高于随机猜测水平的性能,这表明它们具备了在复杂信息中识别和选择最有帮助答案的能力。然而,随着候选答案数量的增加,即使是高性能模型也面临着准确率下降的挑战,这进一步突显了长文本理解与处理的复杂性。

研究者们还进行了消融研究,探讨了不同可扩展位置嵌入技术对LLMs性能的影响。结果表明,采用这些技术的模型在扩大上下文窗口方面表现出改善的性能,并且与在更长上下文上训练的对应模型相比,性能相当。

表9展示了Vicuna-v1.5模型在使用不同上下文窗口扩展方法时,在BestAnswer任务上的表现。该模型原本分别以4k和16k的上下文长度进行训练,即“Original (4k) / (16k)”。表中的“X/Y”格式显示了两种不同的准确率:X代表考虑所有案例时的准确率,而Y代表排除那些未能遵循指令的案例后的准确率。

从表中可以看出,使用可扩展位置嵌入技术如ReRoPE、Leaky ReRoPE和NTK-aware方法,可以在一定程度上提高模型在长文本处理上的性能。这些方法使得模型在处理超出原始训练窗口大小的文本时,仍能保持或接近原始性能水平。例如,在8k的设置下,这些方法能够显著提高准确率,表明它们在扩展模型的上下文理解能力方面是有效的。然而,当上下文长度较短时,如1k,某些方法可能会稍微降低性能。这些结果强调了可扩展位置嵌入在提升LLMs长文本处理能力方面的重要性,同时也揭示了不同方法在不同上下文长度下的相对优势和局限性。

Ada-LEval基准测试的评估结果揭示了现有LLMs在长文本处理方面的重要局限性,尤其是在超长文本设置下。这些发现对未来LLMs的发展具有指导意义,提示了需要进一步研究和改进的方向。

Ada-LEval是一个挑战性的基准测试,需要强大的长文本理解和推理能力。由于开源LLMs在遵循指令和复制指令方面的表现不佳,Ada-LEval很难通过准确率指标区分它们的长文本处理能力。此外,随着文本长度的增加,Ada-LEval在超长文本设置下的难度急剧上升,即使是最先进的专有模型也无法实现理想的性能。

论文链接:https://arxiv.org/abs/2404.06480

Github 地址:https://github.com/open-compass/Ada-LEval

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值