题目
分支-求解-合并改进了大型语言模型的评估和生成
摘要
大型语言模型(LLM)经常用于多方面的语言生成和评估任务,这些任务涉及满足复杂的用户约束或考虑多个方面和标准。然而,由于模型缺乏一致性,无法计划和分解问题,他们的表现可能会有所欠缺。我们提出BRANCH-SOLVEMERGE (BSM),一个大型语言模型程序(Schlag等人,2023),用于处理这种具有挑战性的自然语言任务。它由分支、求解和合并模块组成,这些模块通过对基本LLM的特定提示进行参数化。这三个模块计划将任务分解成多个并行的子任务,独立地解决它们,并将解决方案融合到子任务中。我们将我们的方法应用于LLM响应评估和受限文本生成任务,并使用多个LLM评估其有效性,包括骆马、美洲驼-2-chat和GPT-4。BSM提高了每个LLM的评估正确性和一致性,将人-LLM一致性提高了26%,将长度和成对位置偏差减少了50%,并允许LLaMA2-chat在大多数领域与GPT-4相当或更好。在有约束的故事生成任务中,BSM提高了故事的连贯性,同时也提高了12%的约束满意度。
引言
大型语言模型(LLM)广泛用于各种文本生成任务(拉德福德等,2019;布朗等人,2020;OpenAI,2023bChowdhery等人,2022;Touvron等人,2023年)。为了评估、评论和改进结果,雇用他们作为这些LLM世代的评估者也变得很普遍(郑等人,2023;白等,2022b)。然而,LLM仍然要努力完成具有复杂需求的任务,比如满足一组约束或满足通常是多维的(例如,根据某些不同的标准评估生成的文本的质量)。这似乎主要源于模型缺乏自洽性和无法规划(姚等,2023b布贝克等人,2023)。最近的研究试图通过开发涉及启发推理、规划和细化的迭代方法来减轻这些限制,但迄今为止,它们仍被认为是开放的问题(白等人,2022bMadaan等人,2023;甘古利等人,2023;姚等,2023c陈等,2023;李等,2023;黄等,2023)。
图1:使用LLaMA-2-70B-chat对LLM响应进行成对评估的BRANCH-SOLVE-MERGE示例。给定一个问题和两个LLM答案A和B,BSM产生一个偏好判断。分支模块以问题为条件来生成特定于问题的评估计划,在这种情况下,该评估计划包括不同的标准,如与夏威夷旅行主题的“相关性”、“清晰度”等。“求解”模块独立评估每个标准(分支)的响应对,而“合并”模块将各个判断组合起来,以生成最终结论,在这种情况下,B是更好的响应。
在这项工作中,我们提出了分支-求解合并(BSM),一种解决这种多方面的自然语言任务的分解方法。我们的方法是一个大型语言模型程序的实例(Schlag等人,2023;Dohan等人,2022年),由三个模块组成:分支、求解和合并,这些模块通过对底层LLM的特定提示进行参数化。给定一个任意的用户任务,“分支”模块通过将该任务分解成多个并行的子任务来生成解决方案,其中每个子任务由一个唯一的分支来表示,该分支表示解决整个问题所需的不同组件。“解决”模块然后解决这些独立的子问题。最后,“合并”模块融合这些子问题的解决方案,以生成整体解决方案。我们将我们的方法应用于两个具有挑战性的任务,在这两个任务中,LLM通常被使用,但它们的性能仍然落后于人类:LLM输出的评估(郑等人,2023)。LLM现在通常用于执行模型响应的自动评估,例如对用户查询的自动评估(Dubois等人,2023)。
从整体上评估逻辑线性模型具有挑战性,因为它们能够对任意用户问题生成长形式的答案(郑等,2023),缺乏可靠性源于许多偏见(郑等,2023;吴和阿吉,2023;Wang等人,2023b),以及对手工设计的evalua的依赖影响方法推广的选项计划,引入非故意的人为偏差(刘等,2023;吴和阿吉,2023)。每个分支机构都可以将BSM应用于这项任务,评估需要评估的不同方面和标准。*受约束的文本生成。现有的LLM在受限的文本生成任务上很吃力,例如,编写一个应该包括几个概念的故事的限制。模型通常要么违反约束,要么生成不连贯的文本以满足这些约束(Bubeck等人,2023;姚等,2023a)。BSM可以通过每个分支写故事的一部分来完成这个任务约束,然后是最终合并。
我们将BSM应用于这两个问题,参见图1和图3,并评估其对不同大小和强度的多个开源和黑盒LLM的有效性,包括LLaMA-2-7Bchat (Touvron等人,2023年),Vicuna-33B (Chiang等人,2023年),LLaMA-2-70B-chat和GPT-4 (OpenAI,2023年b)。BSM显著改进了这两项任务,解决了LLM评估和生成的上述限制:BSM改进了LLM评估的正确性。特别地,在MT-Bench基准(郑等,2023)上,改进了用于评估属于不同领域(包括写作、编码、推理和数学)的多回合问题的LLMhuman协议。例如,与零触发提示和self-consistency (Wang等人,2022)基线,与LLaMA-2-70B-chat的LLMhuman一致性提高了高达绝对26%,甚至在许多域上与4相当或优于4。BSM与GPT-4的一致程度比GPT-4进一步提高了3%。总的来说,这些发现表明BSM有能力评估LLM对来自不同领域的任意用户问题的回答,并作为评估者改进任何基础LLM。
BSM还提高了LLM评估的一致性。它显著降低了基于LLM的评估者的位置、长度和自我增强偏差。例如,BSM与美洲驼-2-70bc减少了高达50%的绝对位置偏差。重要的是,GPT-4的BSM还提高了GPT-4在评估自己的反应时作为评估者的可靠性。对于受约束的故事生成任务,BSM生成更连贯的故事,与零镜头基线相比,GPT-4法官在93%的情况下更喜欢这些故事。它还将约束满意度提高了12%。总的来说,BSM为解决具有挑战性的多方面语言生成和评估任务提供了一个规划和任务分解的框架。由于这种方法是作为一个通用的逻辑管理程序来设计的,所以它可以应用于任何底层的逻辑管理和潜在的各种任务。
相关工作
LLM程序和分解复杂任务。像BSM这样的LLM程序用一种算法来解决复杂的问题,这种算法将问题分解成多个步骤,然后每个步骤都用一个不同的提示参数化到一个底层的LLM (Schlag等人,2023;多汉等人,2022;克雷斯韦尔和沙纳汉,2022)。复杂的任务,一般需要任务分解(等,2022)和计划(姚等,2022;黄等,2022;姚等,2023b宁等,2023)。这激发了许多关于高级激励方法的最新研究(Khot等人,2022;周等,2022;王等,2023aDua等人,2022;萨哈等人,2022,2023;Khot等人,2021;古普塔和肯巴维,2023;Cho等人,2023)。然而,这些作品中的大部分通常专注于受益于顺序分解的推理问题(如常识、符号或数学)。然而,我们研究的任务受益于分支到并行分解,特别是LLM评估和约束文本生成。也作为一个LLM项目,也是思维图形提示的一个实例(雷等,2023;Besta等人,2023),因为执行轨迹采用图形的形状。Go