LLM——多模式学术论文自动解读系统，细节理解与原文阅读：A Multi-Modal Automated Academic Papers Interpretation System

最新推荐文章于 2025-04-15 11:40:47 发布

小小帅AIGC

最新推荐文章于 2025-04-15 11:40:47 发布

阅读量2k

点赞数 14

分类专栏： Academic LLM论文文章标签：人工智能语言模型自然语言处理 LLM Academic LLM 学术领域大语言模型

本文链接：https://blog.csdn.net/weixin_44362044/article/details/139499558

版权

Academic LLM论文专栏收录该内容

12 篇文章

订阅专栏

Bridging Research and Readers: A Multi-Modal Automated Academic Papers Interpretation System

连接研究与读者：多模式学术论文自动解读系统

paper: http://arxiv.org/pdf/2401.09150v1

GitHub: https://github.com/fjiangAI/MMAPIS

论文检索网站
https://papers.cool/

1.背景动机

文章要解决的问题—论文解读系统：

论文解读系统逐渐兴起，许多商业化服务平台也逐步上线。这些系统能够从 arXiv 等学术网站上迅速提取整篇论文的要点，并以摘要的形式提供解读。最新的 GPT-4模型还能上传 PDF 文档，并通过设计特定的提示对论文进行解读。

现有论文解读系统的面临的问题：

忽视学术论文中的多模态数据：现有的大多数论文判读系统主要将论文作为文本进行总结，而忽略了结构信息和其他模式，如数学公式、表格、数字等。

解决超长文本的摘要问题：虽然目前的大规模语言模型可以处理超长文本，但它们往往难以捕捉复杂的细节。另一方面，分段摘要方法通常采用长度截断或固定分组方法，导致语义不完整。此外，论文的每个部分都有不同的重点，因此在摘要时需要考虑不同的因素。

缺乏多样化的用户界面：现有系统通常只以摘要形式显示结果，或就论文进行文字聊天。这种限制会给许多用户带来不便

为了缓解上述问题，提出了一个全新的论文解读系统：

开源的多模态学术论文解读系统（MMAPIS）包括三个关键阶段：多模态 PDF 信息处理和对齐、分层话语感知摘要以及各种多模态用户界面

对上述三个阶段方法进行具体解释：

具体来说，系统首先要分别处理 PDF 格式论文的文本和其他模式（图像、表格）
- 对于文本，采用先进的 Nougat 模型将其转换为富含文本的 markdown 格式，其中包括结构化标记，用于指示文档的结构和公式。
- 对于其他模式，使用 PDFFigures 提取论文各部分所包含的图片和表格。
- 然后，使用章节名称对来自不同模式的信息进行对齐，使来自不同模式的内容归属于同一章节，从而方便后续应用的使用。
接下来，引入了一种分层、话语感知的摘要方法，以有效缓解大多数摘要方法所带来的文本限制过程
最后，利用带有各种工具和专门设计的提示的 LLM，开发了四种常见的交互式应用程序。这些应用包括为论文质量打分的论文推荐应用、对论文内容的详细博客解读、更方便的音频阅读以及多模态互动问答。

2.model系统

系统包括三个主要部分：（1）混合模态预处理和对齐模块；（2）分层话语感知摘要模块；（3）多样化多模态用户界面模块。

1.混合模态预处理和对齐模块:

Nougat 和 PDFFigures 2.0 这两种方法的结果互为补充–Nougat 可生成明文和数学公式，而 PDFFigures 2.0 则提供图和表的截图。这些组件提取的纯文本或数字都带有章节名称，可直观地与相应的标题式关键字对齐，从而便于重新生成与源文件结构密切相关的解析结果。

2.分层话语感知摘要模块:

引入了一种两阶段摘要流程–分层话语感知摘要，以生成整体口译。

第一阶段是形成章节级摘要:

首先要利用 Markdown 中标题所包含的层次线索将文档划分为不同的章节。它还提供了自适应控制功能，可根据需要扩展或收缩部分，减轻噪音干扰。例如，可以删除附录和参考文献等部分，从而提供更精简的内容处理体验。

然后，摘要、引言等片段会与预先安排的相应提示相匹配，这些提示是为提取要点而设计的。这一步骤的前提是科学文献遵循通用结构，并且每个部分的主要功能保持相对不变。用户特定的提示会根据读者的需求和期望来鼓励 LLM，以获得多方面的见解。对于提示集中没有标题的章节，会指定一个通用提示作为可行的替代方案。

第二阶段是文档级摘要生成:

在生成章节级摘要后，将进入一个提示引导的整合阶段，以构建文档级摘要。它主要侧重于加强章节之间的内聚力和连续性。在整合阶段，系统在参考文献中加入了通过 NER 技术过滤的标题、作者和所属单位信息，从而增强了合成摘要的亲和力。

3.多样化多模态用户界面模块:

论文推荐：系统采用精心设计的 LLM 提示，从五个关键维度对论文进行评估：目标和中心主题的明确性、方法的适当性和准确性、数据和结论的真实性和精确性、分析的深度和结论性以及整体写作质量。
多模式问答：系统超越了传统的基于文本的问答格式，引入了一个放大的双层问答功能，将对论文中提取的图或表的具体询问纳入其中。
解读博客：该系统提供了解读博客功能，该工具利用基于 LLM 的提示来呈现从创建的摘要中衍生出来的解读博客，通过调整类似标题的关键词来整合其他模式，从而促进对论文中心主题和复杂技术元素的广泛理解。

4.提示设计：

由于基于Transformer的模型更适合短文档语言任务，而不是长文档，系统将提示语分为三个不同的部分，更多详情见附录：

任务描述：该部分是 "系统 "角色的提示，概述任务，描述需求、目标或背景，并规定所需的输出格式。
当前输入：用户 "角色从原始文档内容、先前生成的摘要或两者中输入文本。
输出指标：系统 "角色的这一部分定义了特定的工作流程，为 GPT 提供了可遵循的指南。

在输出指标领域，巧妙地融合了思维链（CoT）和密度链（CoD）技术，每种技术都有其独特的优势。CoT 因其稳健性和显著超越标准基线的能力而脱颖而出，而 CoD 则能巧妙地管理信息密度，在信息量和可理解性之间取得协调。

在生成章节摘要或下游应用（如广播和博客）时，采用 CoT 作为内省评估和持续改进的工具。特别是在生成章节摘要时，将任务说明与输出指标相融合，以确保任务清晰、输出要求浓缩，同时考虑到不同输出模式的不同要求，规定下游应用的具体输出格式。
反之，在合并章节摘要或重新生成的过程中，会应用 CoD 来减少任何有价值实体的潜在损失，同时提高信息密度，从而提供更全面、更翔实的解释。

3.论文解读

Abstract

介绍学术论文总结的需求以及现有的问题，引出本文提出的科学文献解释器：

在当代信息时代，随着大规模语言模型（LLM）的出现，科学文献的激增达到了前所未有的水平。研究人员迫切需要高效的工具来阅读和总结学术论文，发掘重要的科学文献，并采用多种解释方法。为了满足这一急剧增长的需求，自动科学文献解释系统的作用变得至关重要。然而，现有的商业模式和开源模式都面临着显著的挑战：它们往往忽视多模态数据，难以总结过长的文本，而且缺乏多样化的用户界面。为此，我们引入了一个开源的多模态自动学术论文解读系统（MMAPIS），该系统分为三个流程阶段，并结合了 LLM 来增强其功能。

我们的系统首先采用混合模态预处理和对齐模块，分别提取文档中的纯文本和表格或数字。然后，它根据这些信息所属的章节名称进行对齐，确保章节名称相同的数据归入同一章节。
随后，我们将介绍一种分层话语感知摘要方法。它利用提取的章节名称将文章划分为较短的文本片段，通过带有特定提示的 LLM，促进章节内和章节间的特定摘要。
最后，我们设计了四种多样化的用户界面，包括论文推荐、多模态问答、音频广播和释义博客，可广泛应用于各种场景。

我们的定性和定量评估都强调了该系统的优越性，尤其是在科学总结方面，它优于仅依赖 GPT-4 的解决方案。我们希望我们的工作能提供一种以用户为中心的开源解决方案，以满足科学界在快速发展的数字环境中的关键需求。

1.Introduction

介绍科学论文的爆炸式增长，引出如何管理阅读这些论文：

在数字信息时代，数据生产的速度与日俱增，这一现象在科学研究领域同样明显。学术论文的数量正以前所未有的速度激增。例如，著名的预印本服务器 arXiv 用了 23 年时间才积累了第一百万篇论文，但只用了 7 年时间就收集到了随后的两百万篇论文，而随后的一百万篇论文可能只需四年半时间就会到来。在某些科学领域，基于查询的搜索往往会产生大量相关文章，远远超出人类的处理能力。大语言模型（LLMs）的出现大大加速了科学文献的产生，尤其是信息的爆炸性增长。大量的研究论文使我们必须转变获取、理解和利用科学知识的方式，这就要求我们采用创新的方法来管理这些不断增长的研究成果并与之互动。

介绍现有的论文解读技术，引出现有的缺陷:

近期的研究趋势表明，论文解读系统逐渐兴起，许多商业化服务平台也逐步上线。这些系统能够从 arXiv 等学术网站上迅速提取整篇论文的要点，并以摘要的形式提供解读。最新的 GPT-4模型还能上传 PDF 文档，并通过设计特定的提示对论文进行解读。然而，其专有性质使其操作流程不透明，并引发了向第三方网站上传论文时对信息安全的担忧。另一方面，一些开放源码的作品主要是利用 OCR（光学字符识别）技术将 PDF 文档转换为文本，然后将文本输入摘要模型或大型语言模型（LLM），以获得最终的口译结果。尽管纸质口译系统不断进步，但要满足上述功能要求仍面临一些挑战：

1.忽视学术论文中的多模态数据:

忽视学术论文中的多模态数据：现有的大多数论文判读系统主要将论文作为文本进行总结，而忽略了结构信息和其他模式，如数学公式、表格、数字等，而这些都包含了最关键的实验结果、概念或工作流程。这种只关注文本信息的做法无法全面捕捉多模态数据的丰富内涵，而这在学术论文中往往是至关重要的。

2.解决超长文本的摘要问题:

解决超长文本的摘要问题：以往的摘要方法处理较长文本的能力有限。虽然目前的大规模语言模型（例如能够处理多达10万字文本的模型）可以处理超长文本，但它们往往难以捕捉复杂的细节。另一方面，分段摘要方法通常采用长度截断或固定分组方法，导致语义不完整。此外，论文的每个部分都有不同的重点，因此在摘要时需要考虑不同的因素。

3.缺乏多样化的用户界面:

缺乏多样化的用户界面：现有系统在很大程度上忽视了多模态和多样化下游任务场景的潜力。它们通常只以摘要形式显示结果，或就论文进行文字聊天。这种限制会给许多用户带来不便，尤其是那些相关领域的用户，他们会从更多样化的论文解读方法中受益。

引出本文提出的论文解读系统框架（3个阶段）：

为应对上述挑战，我们推出了一个开源的多模态学术论文解读系统（MMAPIS），如图 1 所示，为研究和读者架起了一座桥梁。该系统包括三个关键阶段：多模态 PDF 信息处理和对齐、分层话语感知摘要以及各种多模态用户界面。

我们的系统善于处理来自 arXiv 或用户上传文档等来源的 PDF 格式科学文献，分别提取结构化文本、图像、表格和方程式，全面考虑多模态信息。
然后，通过采用话语感知方法进行分节摘要，该系统可确保捕捉到论文中的所有关键信息，并且每个特定章节都有不同的重点，尤其是关键部分，例如经常出现在文档中间的方法和模型。
最后，我们还提供了多样化的多模态下游用户界面，包括论文推荐、多模态问答、音频广播和释义博客。

对提出系统的三个阶段方法进行具体解释：

具体来说，我们的系统首先要分别处理 PDF 格式论文的文本和其他模式（图像、表格）
- 对于文本，我们采用先进的 Nougat 模型将其转换为富含文本的 markdown 格式，其中包括结构化标记，用于指示文档的结构和公式。
- 对于其他模式，我们使用 PDFFigures 提取论文各部分所包含的图片和表格。
- 然后，我们使用章节名称对来自不同模式的信息进行对齐，使来自不同模式的内容归属于同一章节，从而方便后续应用的使用。
接下来，我们引入了一种分层、话语感知的摘要方法，以有效缓解大多数摘要方法所带来的文本限制过程，因为由于内存复杂性、硬件限制和耗时的预训练过程，这些方法的最大标记数往往有限。最初，我们使用提取的章节边界将论文分为几个部分。然后使用带有特殊提示的大语言模型（LLM）对每个部分进行总结。随后，根据要求对这些单独的摘要进行合并，确保保留文件各部分的重要信息，不被忽略。
最后，我们利用带有各种工具和专门设计的提示的 LLM，开发了四种常见的交互式应用程序。这些应用包括为论文质量打分的论文推荐应用、对论文内容的详细博客解读、更方便的音频阅读以及多模态互动问答。我们的系统还通过提供必要的应用程序接口支持下游应用程序的定制。

我们的贡献总结如下：

我们提出了一个开源的多模态论文解读系统，为提高读者对科学论文的理解和效率提供了一个简洁明了的解决方案。它能有效处理来自 arXiv 或用户上传的 PDF 等来源的科学论文，生成不同形式的论文解读。
我们引入了一种多模态对齐方法来预处理 PDF 格式的科学论文，分别处理文本和视觉元素（图像和表格），然后进行分段对齐处理。该方法可确保同一章节中的文本、图像和表格连贯一致，从而增强对科学论文中多模态信息的理解。
我们开发了一种处理长篇科学文档的分层、话语感知摘要方法。它利用从文件中提取的结构化文本，在章节和文件两个层面上生成简明摘要，确保保留基本信息。
我们提供一系列用户界面来展示论文解读结果。它以论文推荐、多模态问答、音频广播和解读博客等多种形式向用户提供见解，提高了用户在各种场景下对科学论文的参与度。

在这里插入图片描述

2.Related work

介绍现有的论文解读系统的发展：

处理学术论文中的源文件解释系统。口译系统的效率在很大程度上取决于从 PDF 文件中检索数据的质量。在早期的口译系统中，人们一直依赖光学字符识别 (OCR) 引擎来提取纯文本，以便进行后续处理。虽然这些引擎在从图像中提取单个字符和单词方面显示出了功效，但它们的逐行方法无法保留不同格式之间的相对位置关系，尤其是数学表达式和表格。此外，文档中嵌入的多模态元素往往也无法被这些 OCR 引擎识别。目前解释系统的发展趋势是使用高效的 PDF 解析库，例如使用 Grobid 的 D2S[24] 和 ChatPaper 6 系统，以及基于 PyPDFium2Loader 的 ChatPDF 7 系统。与 OCR 相比，这些库在分析 PDF 文档结构以提取更丰富的元数据（包括嵌入的图像）方面表现出色。然而，它们在检索特定位置信息（如公式）方面仍面临挑战，而且在处理将图像直接整合到 PDF 格式中的科学文档时表现出局限性，因此其实用性仍受到一定限制。它们固有的基于对象的处理方法，加上容易忽视结构话语的完整性，导致无法从语义上连接不同的对象，因此必须部署额外的信息检索（IR）模型来进行对齐。

介绍现有论文提取摘要算法：

学术论文释义系统中的摘要。作为论文解释系统的重要组成部分，从学术论文中提取关键信息通常被视为一项摘要任务。自 20 世纪 50 年代以来，通用文本摘要领域取得了重大进展。然而，由于学术论文具有引言、方法论、实验和结论等典型章节的结构性质，总结学术论文面临着独特的挑战。过长的文本给直接摘要带来了挑战。以往的研究表明，尽管大规模语言模型有能力处理多达 10 万字的输入，但它们往往会不成比例地丢失文本中间部分的信息。将文本缩减为更短的文本块是主流方法。一方面，采用的方法包括选择关键句子或单词 [15, 23, 29]，以及使用分段滑动窗口并结合注意力机制 [3, 30]。这些方法没有考虑文本固有的结构化信息，容易导致所获摘要的语义分割不完整。另一方面，不同部分的摘要有不同的侧重点，如摘要部分和方法部分，统一的摘要无法满足它们的特点。

介绍现有的论文解读交互系统：

学术论文释义系统中的用户交互。目前的论文口译系统主要采用两种用户交互模式：文本摘要和基于对话的口译。

文本摘要系统：这些系统为科学论文生成基于文本的简明摘要。虽然能有效地提供快速概览，但往往缺乏深度，而且忽略了论文的多模态方面，如图表。

基于对话的口译系统：这些系统以互动对话的形式让用户参与其中，允许基于查询的信息检索。然而，这些系统的适应性有限，尤其是在处理多模态内容（如图和表）以及不同的交互场景（如博客口译或音频朗读）方面。

虽然这些系统能提供基本的解释见解，但它们通常无法完全支持多模态内容，在不同的应用场景中也缺乏灵活性。

3.THE FRAMEWORK OF MULTI-MODAL AUTOMATED SCIENTIFIC PAPER INTERPRETATION SYSTEM

在这里插入图片描述

正如第 1 节所强调的，论文解读系统对于辅助学术研究、快速提取关键信息和提高文献综述流程的效率至关重要。然而，当前的系统在处理多模态数据（如文本、图像和方程式）、处理冗长文档和提供多样化用户界面方面存在明显的局限性。为了应对这些挑战，我们开发了一个开源的多模态自动学术论文判读系统（MMAPIS），其设计和组件如附图 2 所示。我们的系统包括三个主要部分：（1）混合模态预处理和对齐模块；（2）分层话语感知摘要模块；（3）多样化多模态用户界面模块。

首先，混合模态预处理和对齐模块能有效地分别处理和整合论文中不同类型的信息，包括文本、图像和表格。
其次，分层话语感知摘要模块利用先进的 LLMs 和特殊提示，提取论文各部分的关键信息，生成全面准确的摘要。
最后，我们的系统具有多样化的多模态用户界面模块，旨在满足不同用户群体的特定需求，提供多种交互模式，如论文推荐、多模态问答、音频广播和口译博客。

3.1.Hybrid Modality Preprocessing and Alignment Module(混合模态预处理和对齐模块)

介绍处理PDF多模态文件->Markdown格式

鉴于处理 PDF 中的多模态内容十分困难，我们的目标是在混合模态预处理之后，将源文档重构为语义相似的对应文件，如 Markdown 格式。重构后的文档可以通过保留丰富的多模态信息（如表格和数字）和分层的话语结构（如章节），为后续的对齐模块提供便利，并生成语义全面的高质量摘要。

介绍现有的两种pdf处理方法：Nougat/PDFFigures

传统方法主要依赖 OCR 引擎或高效库，无法辨别位置敏感的模态细节，也忽略了文档结构的特殊性，与此不同，我们的预处理方法受 Nougat和 PDFFigures 2.0的启发，分别提取文本和其他模态。Nougat 提供了一个端到端可训练的编码器-解码器转换器模型，善于将图片中的文本信息（包括每个 PDF 页面截图中的明文和数学公式）预测为 markdown 格式。我们利用 Nougat 作为工具，从 PDF 中提取文本及其不同段落之间固有的层次结构，最大限度地减少转换过程中的数据丢失，从而大大降低了后续分割的复杂性。此外，PDFFigures 2.0 （一种通过推理文本中的空白区域来识别图和表的方法）不仅提供了图像，还提供了其归属信息。这就降低了多模态对齐的难度，即根据各模态与版面标记（如章节标题）的相对结构信息来分配各模态之间的隶属关系。

本文使用Nougat 和 PDFFigures相结合的方式，从不同角度互补pdf解析：

Nougat 和 PDFFigures 2.0 这两种方法的结果互为补充–Nougat 可生成明文和数学公式，而 PDFFigures 2.0 则提供图和表的截图。值得注意的是，这些组件提取的纯文本或数字都带有章节名称，可直观地与相应的标题式关键字对齐，从而便于重新生成与源文件结构密切相关的解析结果。具体来说，从 PDF 中解析出的所有表格和数字在对齐其所属章节后都会被保留下来，这是因为它们在封装科学文档中最关键的实验结果和概念方面具有重要价值。

3.2.Hierarchical Discourse-aware Summarization Module（分层话语感知摘要模块）

介绍为了解决提取摘要过程中的长文本问题，引入的两阶段摘要流程：

为解决口译系统中经常遇到的长文档难题，我们引入了一种两阶段摘要流程–分层话语感知摘要，以生成整体口译。这种方法通过第一个模块给出的章节名称分割文档，并通过 LLM 生成章节内部和章节之间的摘要，可以缓解以往工作的局限性（如语义破碎和效率低下）。

第一阶段—章节级摘要生成:

我们的方法的第一阶段是形成章节级摘要。在这个过程中，

首先要利用 Markdown 中标题所包含的层次线索将文档划分为不同的章节。这种方法不同于 FacetSum 提出的预定义四节，后者可能只普遍适用于某些论文。相反，我们的方法更倾向于对几乎每一节进行剖析。这种灵活性允许缩短处理段的长度，同时确保在不重叠的情况下保持章节级和文档级语义的完整性。此外，它还提供了自适应控制功能，可根据需要扩展或收缩部分，减轻噪音干扰。例如，可以删除附录和参考文献等部分，从而提供更精简的内容处理体验。然后，摘要、引言等片段会与我们预先安排的相应提示相匹配，这些提示是专门为方便提取要点而设计的。这一步骤的前提是科学文献遵循通用结构，并且每个部分的主要功能保持相对不变。用户特定的提示会根据读者的需求和期望来鼓励 LLM，以获得多方面的见解。对于提示集中没有标题的章节，我们会指定一个通用提示作为可行的替代方案。

第二阶段—文档级摘要生成:

在生成章节级摘要后，我们将进入一个提示引导的整合阶段，以构建文档级摘要。它主要侧重于加强章节之间的内聚力和连续性，从而指导下游应用。值得注意的是，在整合阶段，我们在参考文献中加入了通过 NER 技术过滤的标题、作者和所属单位信息，从而增强了合成摘要的亲和力。

3.3.Diverse Multimodal User Interface Module

我们的释义系统通过一个基于 Streamlit 的用户友好界面，将分层话语感知摘要模块的输出结果巧妙地转化为四种不同的下游应用，每种应用都是为适应不同的用户场景而量身定制的，并按生成内容的长度排序：

论文推荐：作为第一个应用程序，我们的系统采用精心设计的 LLM 提示，从五个关键维度对论文进行评估：目标和中心主题的明确性、方法的适当性和准确性、数据和结论的真实性和精确性、分析的深度和结论性以及整体写作质量。文件层面的主要四项指标依赖于生成的摘要来进行标记减少评估。然而，评估整体写作质量是一个更精细的段落甚至单词级别的指标，因此必须使用原文才能进行公平的评估。考虑到标记溢出的可能性和对写作一致性的假设，同时考虑到读者倾向于首先阅读开头和结尾，评估适用于战略性选择的摘录，特别是引言和结尾部分。这些功能旨在迅速衡量论文的质量，让用户立即了解论文的优点。
多模式问答：我们的系统超越了传统的基于文本的问答格式，引入了一个放大的双层问答功能，将对论文中提取的图或表的具体询问纳入其中。当用户要求对论文中的图表进行深入阐释时，我们首先使用 GPT-3.5 Turbo 从用户的问题中辨别图表的出处，也就是将插图的索引与相关章节并列，例如（“Introduction”,1）来定位目标图片。然后，我们将用户询问和相关图片输入 GPT-4，从而提供全面的解释。这一功能充分利用了 GPT-4 的多模态处理能力，使其能够做出更精确、更有针对性的回应，从而丰富用户对论文内容的理解。
音频广播：考虑到在实时场景中快速吸收信息的需要，我们的系统引入了为生成口语广播脚本量身定制的功能。它利用 ChatGPT 的提示来编写简单明了的句子，并根据生成的摘要合成适合口头传播的叙述。然后，通过文本到语音（TTS）接口，如 Azure TTS 10 或有道 TTS，生成音频广播，从而为用户提供一种与众不同且用户友好的方法来参与研究。
解读博客：该系统提供了解读博客功能，要求对论文进行详细而透彻的解读，以便对论文进行更深入的探讨。该工具利用基于 LLM 的提示来呈现从创建的摘要中衍生出来的解读博客，通过调整类似标题的关键词来整合其他模式，从而促进对论文中心主题和复杂技术元素的广泛理解。我们特别强调了可读性和对既定博客格式的遵守，确保从清晰的引言到结尾的叙述流畅无缝。

3.4.Prompt Design

由于基于Transformer的模型更适合短文档语言任务，而不是长文档，因此我们的目标是确保每个角色的提示语在保持简洁的同时保留独特的职责。理想情况下，关键信息应位于输入文本的开头或结尾，提示应保持简短以优化性能。因此，我们将提示语分为三个不同的部分，更多详情见附录：

任务描述：该部分是 "系统 "角色的提示，概述任务，描述需求、目标或背景，并规定所需的输出格式。
当前输入：用户 "角色从原始文档内容、先前生成的摘要或两者中输入文本，作为外部知识的来源，以便更好地理解整个文本。
输出指标：系统 "角色的这一部分定义了特定的工作流程，为 GPT 提供了可遵循的指南。

在输出指标领域，我们巧妙地融合了思维链（CoT）和密度链（CoD）技术，每种技术都有其独特的优势。CoT 因其稳健性和显著超越标准基线的能力而脱颖而出，而 CoD 则能巧妙地管理信息密度，在信息量和可理解性之间取得协调。

在生成章节摘要或下游应用（如广播和博客）时，我们采用 CoT 作为内省评估和持续改进的工具。特别是在生成章节摘要时，我们将任务说明与输出指标相融合，以确保任务清晰、输出要求浓缩，同时考虑到不同输出模式的不同要求，规定下游应用的具体输出格式。
反之，在合并章节摘要或重新生成的过程中，我们会应用 CoD 来减少任何有价值实体的潜在损失，同时提高信息密度，从而提供更全面、更翔实的解释。

4.DEMO & EVALUATION

4.1.Demo

在这里插入图片描述

在图 3 中，我们展示了多用途、适应性强的下游应用，每种应用都是针对不同场景量身定制的。案例研究围绕题为 "Attention is All You Need "的开创性论文展开，该论文引入了革命性的 “Transformer”，旨在促进观察。起初，我们在左上角以标记符格式显示推荐分数，使学术界能够从五个不同维度及时评估论文质量。随后，我们的多模态问答机制通过以对话为导向的关键内容（包括图表中的数据）探索，增强了解释性理解，左下角就是一个例子。为了方便用户在开车或用餐时阅读内容，我们提供了 MP3 格式的音频功能，让用户初步了解手稿的叙述内容。最后，右上角以 markdown 格式显示生成的博客文章，保留了从源文件中提取的几乎所有元数据，包括图、表、数学公式和纯文本，强调了可读性和受众参与性，从而加快了对论文核心主题的理解。

4.2.Quantitative Analysis for Summarization

除上述案例研究外，我们还进行了一项定量分析，重点关注论文解释系统的核心方面–论文摘要的质量。具体来说，我们首先从 arXiv 中选取了 100 篇论文作为测试集。由于GPT-4的训练数据截止到2023年4月，为了避免数据泄露造成的性能偏差，我们从arXiv上的2017年12月和2023年12月各抽取了50篇论文，形成了两个测试子集，分别命名为CS2017数据集和CS2023数据集。这些子集的统计信息如表 1 所示。对于基线系统，我们测试了目前表现最好的模型 GPT-4，并将其性能与我们的模型进行了比较。在评估指标方面，我们采用了 COD 方法，其中包括五个维度：该方法包括五个维度：信息量、质量、一致性、可归属性和整体性[1]。由于没有参考文本，且 ROUGE 分数无法识别同义词或短语之间的重叠，因此我们采用 GPT-4 对摘要进行评分，而不是使用 ROUGE 分数。

4.2.1 结果与分析。结果表明，通过横向比较，在 CS2023 数据集和 CS2017 数据集中，我们的系统几乎在所有方面都超越了 GPT-4。具体而言，在 "信息量 "和 "总体 "两个维度上，我们的方法与 GPT-4 提供的概括性摘要相比有显著进步，并保持相对稳定，这表明 MMAPIS 的结果提供了更密集的实体密度和更详细的关键特定信息，而这往往更受人类青睐，如文献[1]所示，总体维度与人类偏好具有最高的摘要级皮尔逊相关性，而其他维度也保持了 0.120 至 0.245 的正相关性。这些证据凸显了分层话语感知摘要的高效性能，它降低了分割过程中信息丢失的可能性，使摘要器能够生成相对详细的摘要，从而准确地概括关键叙述并迎合人类的偏好。

这一观察结果的根本原因在于分层话语摘要法减轻了 Kryściński 等人[17]发现的 “布局偏差”，即大约 60% 的重要句子位于开头的 30%。传统方法偏向于根据经验知识或模型设计进行提取或截断，而**我们的方法则不同，它使用与原文非常相似的数据，从而避免了排版上的偏差，即使在过滤掉对读者价值较低的特定部分时，也能保持信息在语义和结构上的完整性。**这一点得到了文献[16]的支持，文献[16]显示，突出的内容更均匀地分散在长篇文档中，而短篇文档中的模型则常常受益于排版偏差[12, 20, 22]。

显著的性能提升还可能归因于与 "迷失在中间 "现象的假设[18]相关的有趣观察，即 LLM 呈现出 "U "型性能曲线，非常依赖于出现在开头和结尾的信息。具体来说，由于我们的方法是根据文档的结构来分割文本的，因此 CS2017 数据集和 CS2023 数据集文档中每个部分的平均长度都保持在 2000 字节以下，具体来说，平均长度分别为 1163 和 1364 字节。与处理整个文本正文相比，这种方法大大减轻了位置敏感性可能导致的性能下降，因为整个文本正文分别包含约 7730 到 9152 个字节，长度增加了近 6.7 倍。正如文献[18]所证明的那样，GPT-3.5 Turbo 的 QA 性能在输入约 4000 个 token 时会下降 20% 以上，而在输入约 2000 个 token 时仍能保持相当高的性能。还可以推断出，分层话语感知摘要法的最小网格（第一阶段以章节为基础）代表了速度与准确性之间的权衡。

在纵向比较中，GPT-4 和 MMAPIS 在所有维度上都表现出明显的性能下降。有趣的是，在不涉及文件的维度（如质量和连贯性）上，性能下降的程度较轻，而在涉及技术复杂性和知识储备的维度上，性能下降的程度则更为明显，这可能是由于 "幻觉 "问题的再次出现–这是 GPT 模型的一个共同特征。另一个原因可能是数据的平均长度从 CS2017 数据集（即 1163）增加到 CS2023 数据集（即 1364），增加了计算负荷，从而使 GPT 模型更容易受到干扰。

5.CONCLUSIONS AND FUTURE WORK

本文介绍了一种开源的多模态学术论文自动解读系统（MMAPIS），该系统由三个集成模块组成：（1）混合模态预处理和对齐模块；（2）分层话语感知摘要模块；（3）多样化多模态用户界面模块。与现有研究相比，我们的系统通过混合模态预处理，巧妙地利用了学术论文中的多模态信息。此外，通过带有特殊提示的 LLM，采用分层话语感知摘要方法，可确保准确捕捉和保留冗长科学文本各部分的重要信息。此外，该系统多种多样的多模态用户界面提高了读者和开发人员的可访问性和实用性。我们通过定性演示和定量分析证明了我们系统的有效性和优越性。未来，我们的目标是进一步增强我们系统的功能，重点关注高级集成和优化。虽然我们目前的设计已经解决了学术论文解读中的主要难题，但我们认识到，我们还有潜力将更广泛的外部知识和文献间的联系纳入其中。这一改进将有助于对学术内容进行更加细致入微的理解，尤其是与用户特定背景和特征相关的内容。此外，我们还致力于提高系统的效率和响应能力。我们的目标是从主要的离线处理过渡到更加动态、实时的解释，从而扩大系统的适用性。