LLM—文献综述任务（文献检索，相关工作总结生成），论文理解与阅读：LitLLM: A Toolkit for Scientific Literature Review

最新推荐文章于 2025-03-10 10:19:57 发布

小小帅AIGC

最新推荐文章于 2025-03-10 10:19:57 发布

阅读量2.6k

点赞数 37

分类专栏： Academic LLM论文文章标签：人工智能自然语言处理 LLM 科研学术领域文献检索摘要生成文献综述任务

本文链接：https://blog.csdn.net/weixin_44362044/article/details/140782013

版权

Academic LLM论文专栏收录该内容

12 篇文章

订阅专栏

LitLLM: A Toolkit for Scientific Literature Review

LitLLM：科学文献综述工具包

paper: https://arxiv.org/abs/2402.01788

GitHub: https://github.com/shubhamagarwal92/LitLLM

LitLLM主要做的任务是文献综述中的两个子任务，文献检索和内容生成，主要流程如下：

input：用户提供待研究的摘要内容：

使用 LLM 获取摘要中的关键词，用作搜索引擎的查询条件。用户也可以提供关键词，改进搜索结果。
关键词被传递给搜索引擎，检索相关论文。检索到的论文摘要与查询摘要一起被用作另一个 LLM Reranker的输入，根据查询摘要与检索摘要的相关性对论文进行重排。
重新排序后的摘要和查询摘要被传递给 LLM 生成器，由它生成论文的相关工作部分。

可以总结为：

文献检索：1.关键词获取： 1）输入keywords，2）LLM抽取keywords；2.api接口检索论文；3.使用LLM对论文重排。
内容生成：用户输入的信息与检索到的论文摘要送入LLM，生成相关工作内容。（zero-shot，句子计划提示）

文献检索使用的是 semantic scholar api

1.背景动机

介绍文献综述系统的任务：

文献综述可分解多个子任务，包括检索相关论文和生成相关文本部分

介绍现有的文献综述任务相关算法：

Lu建议使用论文摘要和（相关）参考文献列表生成论文的相关作品部分。研究人员还着眼于整个任务，并使用 LLMs（如用于文献综述的 ChatGPT）构建系统。虽然这些 LLMs 往往能生成高质量的文本，但容易产生幻觉。例如，Galactica 系统在各种科学任务上的表现优于当代模型，但它生成的内容却是杜撰的，如不准确的引用和想象的论文。

介绍本文所提出的方法：

本文探索通过检索-增强-生成（RAG）来提高事实的正确性。本文想法是：利用检索机制来获取待引用现有论文的相关列表，从而为基于 LLM 的生成提供相关的上下文知识。LitLLM 是一种交互式工具，可帮助科学家从用户提供的摘要开始撰写科学论文的文献综述或相关工作部分

2.Model

1.介绍算法的整体流程：

在这里插入图片描述

用户提供待研究的摘要内容：

首先使用 LLM 将获取摘要中的关键词，这些关键词用作搜索引擎的查询条件。用户还可以选择提供相关关键词，以改进搜索结果。
关键词会被传递给搜索引擎，搜索引擎会检索带有相应信息的相关论文。这些检索到的论文摘要与原始查询摘要一起被用作另一个 LLM Reranker的输入，根据与用户输入摘要的相关性对论文进行列表式排序。
最后，这些与用户查询相关的重新排序的摘要被传递给 LLM 生成器，由它生成论文的相关工作部分。

另外，引用别的文献，即用句子计划提示 LLM，可以减少生成输出中的幻觉。这些计划包含每行的句子数量和引文描述信息，提供了满足作者偏好的控制。本文将这种基于句子的规划纳入 LLM 生成器。

2.Paper Retrieval Module，论文检索模块：

本文使用Semantic Scholar API检索相关论文。推荐应用程序接口还提供与用户输入论文类似的相关论文。本文介绍了三种用于搜索参考文献的设置：

用户提供摘要或研究构想。本文会提示 LLM用关键字概括该摘要，这些关键字可用作大多数应用程序接口的搜索查询。
用户选择提供关键词，以改进搜索结果。这在跨学科研究中尤为有用。
如果用户发现某一篇论文与自己的想法足够相关，就可以使用搜索引擎的（Recommendations API）来提供其他密切相关的论文。

在这里插入图片描述

3.Paper Re-Ranking Module，论文重排模块：

最近的研究直接提供一个合并的段落列表作为模型的输入，并检索重新排序的排序列表。通常情况下，检索器会先筛选出前 k 个潜在候选段落，然后由 LLM 重新排序，以提供最终输出列表。

在本文，使用了指导性的 "篡改生成 "方法，即提示模型根据与用户提供的摘要的相关性，按降序生成不同论文的篡改，从而生成一个有序的优选列表，并提供中间分数。

在这里插入图片描述

4.Summary Generation Module,总结生成模块：

(1) zero-shot生成 (2) 基于计划的生成

4.1.Zero-shot generation，Zero-shot生成：

虽然 LLM 有可能从其参数记忆和训练数据中搜索并生成相关论文，但它们很容易产生幻觉并生成非事实内容。本文工作建立在 RAG 原则的基础上，即根据检索的相关论文（摘要），并将其作为生成文献综述的上下文进行扩充。

在这里插入图片描述

4.2.Plan based generation，基于计划的生成：

本文利用基于句子计划的提示技术，借鉴了传统模块化自然语言生成（NLG）流水线的文献中关于句子计划和表面实现的中间步骤的见解。这些规划提供了预期输出的句子结构，从而有效地指导 LLM 以可控的方式生成文献综述，其中的模板示例如下
在这里插入图片描述

3.原文阅读

Abstract

对科学论文进行文献综述对于了解研究、研究的局限性以及在现有工作的基础上开展研究至关重要。这是一项繁琐的工作，因此自动文献综述生成器很有吸引力。遗憾的是，许多使用大型语言模型（LLM）生成此类综述的现有工作都有很大的局限性。它们往往会产生幻觉–生成非事实信息–并忽略未经训练的最新研究。为了解决这些局限性，我们提出了一个工具包，该工具包根据检索增强生成（RAG）原理运行，在 LLMs 的帮助下采用专门的提示和指导技术。我们的系统首先启动网络搜索，利用现成的 LLM 将用户提供的摘要总结为关键词，从而检索相关论文。作者可以通过补充相关论文或关键词来增强搜索效果，从而为量身定制的检索流程做出贡献。其次，系统会根据用户提供的摘要对检索到的论文重新排序。最后，根据重新排序的结果和摘要生成相关工作部分。与传统方法相比，我们的工具包大大减少了文献综述所需的时间和精力，是一种高效的替代方法。我们的开源工具包可在 https://github.com/shubhamagarwal92/LitLLM 和 Huggingface space (https://huggingface.co/spaces/shubhamagarwal92/LitLLM) 上查阅。

1 Introduction

长期以来，科学家们一直使用搜索引擎等 NLP 系统来查找和检索相关论文。包括 Google Scholar、Microsoft Academic Graph 和 Semantic Scholar 在内的学术引擎提供了更多的工具和结构来进一步帮助研究人员。随着大型语言模型（LLM）的最新进展，一组新的系统提供了更先进的功能。例如，Explainpaper可帮助解释论文内容，Writefull可帮助完成几项写作任务，包括摘要和标题生成。当然，类似的技术还能帮助完成许多其他任务。

介绍文献综述系统的任务与应用前景：

帮助研究人员进行文献综述的系统前景广阔。文献综述是一项艰巨的任务，可分解为多个子任务，包括检索相关论文和生成相关作品部分，与现有文献进行比较，说明所提出工作的来龙去脉。这也是一项对事实正确性要求极高的任务。从这个意义上说，这对目前的 LLM 来说是一项具有挑战性的任务，因为众所周知，LLM 会产生幻觉。总之，创建工具来帮助研究人员更快地识别、总结相关先前工作并将其与上下文联系起来，可以极大地帮助研究界。

介绍现有的文献综述任务相关算法：

最近的一些作品探索了文献综述的部分或全部任务。例如，Lu 等人（2020 年）建议使用论文摘要和（相关）参考文献列表生成论文的相关作品部分。研究人员还着眼于整个任务，并使用 LLMs（如用于文献综述的 ChatGPT）构建系统（Haman 和 Skolnik，2023 年；Huang 和 Tan，2023 年）。虽然这些 LLMs 往往能生成高质量的文本，但容易产生幻觉（Athaluri 等人，2023 年）。例如，Galactica 系统是为推理科学知识而开发的（Taylor 等人，2022 年）。虽然该系统在各种科学任务上的表现优于当代模型，但它生成的内容却是杜撰的，如不准确的引用和想象的论文。

介绍本文所提出的方法：

在这里插入图片描述

作为向前迈出的一步，我们探索通过检索-增强-生成（RAG）来提高事实的正确性（Lewis 等人，2020 年）。我们的想法是利用检索机制来获取待引用现有论文的相关列表，从而为基于 LLM 的生成提供相关的上下文知识。

LitLLM 是一种交互式工具，可帮助科学家从用户提供的摘要开始撰写科学论文的文献综述或相关工作部分（见图 1）。这项工作的具体目标是创建一个系统，帮助用户浏览研究论文，并为给定的论文或项目撰写文献综述。我们的主要贡献如下

我们提供了一个基于模块化管道的系统，可根据用户提出的摘要进行文献综述。

我们使用检索增强生成（RAG）技术，以事实内容为条件生成相关作品，并避免使用多种搜索技术造成的混淆。
我们采用基于句子的规划来促进可控生成。

2 Related Work

LLM 在存储事实知识方面表现出强大的能力，并在下游自然语言处理（NLP）任务中进行微调后取得了最先进的结果 Lewis 等人（2020 年）。

介绍RAG：

然而，它们也面临着一些挑战，如幻觉、过时的知识以及不透明、不可追踪的推理过程。这些局限性促使人们开发了 RAG 检索增强生成技术，该技术结合了外部数据库的知识，以提高模型的准确性和可信度，尤其适用于知识密集型任务。RAG 已成为应对 LLM 所面临挑战的一种有前途的解决方案。它将 LLMs 的固有知识与庞大、动态的外部数据库库协同合并。这种方法允许不断更新知识和整合特定领域的信息，以限制过时知识的影响。建议的工作以 RAG 的进步为基础，为学术写作提供更高效的解决方案。

另一方面，利用大型语言模型（LLMs）来完成信息检索和排序相关任务的做法得到了显著的重视。Sun 等人（2023 年）的研究利用 Chat-GPT 和 GPT-4 等生成式 LLM 进行信息检索中的相关性排序，证明这些模型能提供与最先进的监督方法相比具有竞争力的结果。Pradeep 等人（2023b, a）介绍了不同的开源 LLM，用于列表式零次重排，进一步激发了我们在工作中使用 LLM 进行重排的提议。

对大型语言模型（LLMs）及其归零能力的探索是近期研究的一个重要焦点。例如，一项研究调查了在推荐系统中使用 LLMs 的情况，结果表明，尽管 LLMs 在历史交互顺序和位置偏差方面存在问题（Hou et al.）另一项研究通过结构调整提高了 LLMs 的零点学习能力，从而大幅提高了在未见任务中的性能（Wei 等人，2021 年）。还有一项类似的研究，通过引入自主代理来指导推理过程，提高了 LLMs 的零点推理能力，从而显著提升了性能（Crispino 等人，2023 年）。在自然语言生成（NLG）评估方面，也对 LLM 的应用进行了探索，发现比较评估优于提示评分（Liusie 等人，2023 年）。在开放域问题解答（ODQA）领域，有人提出了一个自我提示框架，以利用 LLMs 中存储的大量知识，从而显著改进了以前的方法（Li 等人，2022 年）。提示工程（Prompt en- gineering）已被认为是提高 LLM 能力的关键技术，目前正在探索各种策略（Shi 等人，2023 年）。

3 Pipeline

介绍算法的整体流程：

在这里插入图片描述

图 2 是该流程的概览：用户提供摘要或研究想法的草稿。

我们首先使用 LLM 将摘要概括为关键词，这些关键词可用作搜索引擎的查询条件。用户还可以选择提供相关关键词，以改进搜索结果。
该查询会被传递给搜索引擎，搜索引擎会检索带有相应信息（如摘要和开放获取的 PDF URL）的相关论文。这些检索到的论文摘要与原始查询摘要一起被用作另一个 LLM Re-ranker 的输入，该 LLM Re-ranker 会根据与查询摘要的相关性对论文进行列表式排序。
最后，这些与原始查询相关的重新排序的摘要被传递给 LLM 生成器，由它生成论文的相关工作部分。

最近，Agarwal 等人（2024 年）的研究表明，用句子计划提示 LLM，可以减少生成输出中的幻觉。这些计划包含每行的句子数量和引文描述信息，提供了满足作者偏好的控制。我们将这种基于句子的规划纳入 LLM 生成器，作为本系统的一部分。下面，我们将详细介绍各个模块。

3.1.Paper Retrieval Module

论文检索模块：

在这里插入图片描述

在我们的工具包中，我们使用Semantic Scholar API检索相关论文。也可以使用其他平台，但S2平台非常适合本使用案例。它是一个大规模的学术语料库，包含跨多个研究领域的2亿多条元数据记录，提供有关论文元数据、作者、论文嵌入等方面的信息。推荐应用程序接口还提供与种子论文类似的相关论文。图 3 显示了我们系统的不同策略。我们将介绍这三种用于搜索参考文献的设置：

用户提供摘要或研究构想（大致相当于摘要的长度）。我们会提示 LLM（见图 4）用关键字概括该摘要，这些关键字可用作大多数应用程序接口的搜索查询。

用户也可以选择提供关键词，以改进搜索结果。这类似于研究人员使用搜索引擎搜索相关工作的方式。这在跨学科研究中尤为有用，因为作者希望包括来自特定领域的最新搜索结果，而这在摘要中是无法体现的。
最后，如果用户发现任何种子论文与自己的想法足够相关，就可以使用搜索引擎的推荐应用程序接口（Recommendations API）来提供其他密切相关的论文。

在这里插入图片描述

3.2.Paper Re-Ranking Module

论文重排模块：

最近的研究探索了应用专有 LLM 进行排序的方法（Sun 等人，2023 年；Ma 等人，2023 年）以及开源模型（Pradeep 等人，2023a,b）。这些方法直接提供一个合并的段落列表作为模型的输入，并检索重新排序的排序列表（Zhang 等人，2023）。通常情况下，检索器会先筛选出前 k 个潜在候选段落，然后由 LLM 重新排序，以提供最终输出列表。在我们的工作中，我们使用了指导性的 "篡改生成 "方法（Sun 等人，2023 年），即提示模型根据与用户提供的摘要的相关性，按降序生成不同论文的篡改，从而生成一个有序的优选列表，并提供中间分数。图 5 展示了我们用于基于 LLM 重新排序的提示。

在这里插入图片描述

3.3.Summary Generation Module

我们探索了两种生成策略：(1) zero-shot生成；(2) 基于计划的生成，即依靠句子计划进行可控生成，具体描述如下

3.3.1 Zero-shot generation

摘要相关工作的Zero-shot生成：

虽然 LLM 有可能从其参数记忆和训练数据中搜索并生成相关论文，但它们很容易产生幻觉并生成非事实内容。Parvez 等人（2021 年）在知识任务中首次引入了检索增强生成技术，通过使用信息检索模块增强生成模型来解决这一问题。RAG 原则随后被用于任务导向设置中的对话生成、代码生成和产品评论生成。RAG 大大减少了生成输出中的幻觉。

我们的工作建立在 RAG 原则的基础上，即根据查询检索相关论文，并将其作为生成文献综述的上下文进行扩充。在训练数据限制了 LLM 参数知识的情况下，这也使系统能够以检索到的信息为基础，并根据最新研究进行更新。图 6 显示了我们的系统对有效检索增强生成（RAG）的提示。

在这里插入图片描述

3.3.2 Plan based generation

基于计划的生成：

为了从 LLM 中获得最佳结果，最近的研究重点转向设计更好的提示（提示工程），包括 zero-shot思维链提示、few-shot提示、techniques, few-shot思维链提示和上下文提示。然而，我们的问题陈述（查询论文和多篇相关论文）的语境较长，阻碍了这些技术在生成回复中的应用。

我们利用基于句子计划的提示技术，借鉴了传统模块化自然语言生成（NLG）流水线的文献中关于句子计划和表面实现的中间步骤的见解 Reiter 和 Dale（1997 年）；Stent 等人（2004 年）。这些规划提供了预期输出的句子结构，从而有效地指导 LLM 以可控的方式生成文献综述，这在同时进行的工作 Agarwal 等人（2024 年）中得到了证明。图 7（附录）显示了基于计划生成的提示，其中的模板示例如下

在这里插入图片描述

4 Implementation Details

我们使用 Gradio Abid 等人（2019 年）构建了我们的系统，它提供了一个很好的界面，可以快速高效地构建系统演示。我们的用户界面也可在HuggingFace Space上获得。我们查询语义学者开放数据平台（Semantic Scholar Open Data Platform）提供的语义学者API，以搜索相关论文。具体来说，我们使用学术图谱（Academic Graph）和推荐（Recommendations）API端点。在这项工作中，我们使用 OpenAI API利用 GPT-3.5-turbo 和 GPT-4 模型生成 LLM的结果。同时，我们的模块化管道允许不同组件使用任何 LLM（专有或开源）。我们还允许终端用户按相关性（默认 S2 结果）、引用次数或年份对检索到的论文进行排序。

5 User Experience

作为一项初步研究，我们向 5 位不同的研究人员提供了用户界面的访问权限，他们通过演示来撰写文献综述并验证系统的功效。我们还在演示中提供了一个带有摘要的示例，以便快速上手。尤其是，用户认为 "0-shot "生成的文献综述信息量更大，而基于计划生成的文献综述信息量更大，更适合他们的研究论文，这一点在我们的演示视频中也很明显。表 1（附录）显示了最近一篇论文的相关输出工作，该论文是随机选择的，被引用的论文数量为 4 篇：多模态研究：图像-文本模型交互，并检索了相关论文，其中排名靠前的推荐论文也在原始论文中被引用。零镜头生成为现有文献提供了有价值的见解，而基于计划的生成则生成了更简洁、更易于使用的文献综述。

6 Conclusion and Future Work

在这项工作中，我们介绍并描述了 LitLLM，这是一个使用现成的 LLM，只需点击几下就能从摘要生成文献综述的系统。这个由 LLM 驱动的工具包依靠带有重新排序策略的 RAG 来生成带有归属的文献综述。我们的辅助工具允许研究人员根据初步研究构想、研究提案甚至完整摘要主动搜索相关工作。我们提出了一个模块化管道，通过改变检索信息的来源，可以很容易地将下一代 LLM 和其他领域（如新闻）纳入其中。

鉴于各种基于 LLM 的写作助手的影响越来越大，我们乐观地认为，我们的系统可以帮助研究人员搜索相关论文，并提高论文中自动生成的相关工作部分的质量。虽然我们的系统有望成为有用的研究助手，但我们认为应该向读者公开其使用情况，作者也应谨慎排除任何可能的误差。

未来，我们还希望通过多种 API（如谷歌学术）探索学术搜索。这项工作只考虑了查询论文和检索论文的部分内容，这对有效生成文献综述造成了瓶颈。随着篇幅更长的 LLM 的出现，我们设想我们的系统可以摄取整篇论文（有可能利用高效的基于 LLM 的 PDF 解析器），以提供更相关的相关研究背景。我们认为我们的方法是构建智能研究助手的第一步，它可以通过交互式设置帮助学术界人士。