LLM—支持文献结构化,NER,RE,QA图存储的半自动工具,辅助科学发现,原文理解与阅读:KnowledgeHub: An end-to-end Tool for Assisted Scientif

LLM—一个从论文结构化到NER,RE,QA,图数据库的半自动工具,辅助科学发现,原文理解与阅读:KnowledgeHub: An end-to-end Tool for Assisted Scientific Discovery

KnowledgeHub: An end-to-end Tool for Assisted Scientific Discovery

KnowledgeHub: 辅助科学发现的端到端工具

paper: https://arxiv.org/abs/2406.00008

GitHub:

该论文主要是介绍KnowledgeHub如何使用,KnowledgeHub是一个支持 NER 和
RC的辅助科学发现的工具。即支持论文结构化,论文NER和RE信息抽取半自动工具,支持基于RAG的QA,以及图数据库的构建。其中,

  1. 论文结构化:使用GROBID 工具将 PDF 内容转换为结构化XM。使用Stanza分段分句以及词性标注
  2. NER和RE:支持导入用户自定义本体。然后可以使用 BRAT标注,最后根据标注训练 NER 和 RC 模型。
  3. 基于RAG的QA:根据提出的问题,返回最相关的三个段落。然后基于提示LLM从这些段落中生成汇总答案。

这里可以参考的就是 GROBID结构化工具了。

1.背景动机

科学文献中包含的数据量越来越大,这意味着越来越需要自动化解决方案来有效提取信息,以开发新发现。

介绍本文的 KnowledgeHub 工具-支持语言注释、NER 和 RC的 IE 以及源文献的 QA:

本文介绍的 KnowledgeHub 工具,涵盖了语言注释、NER 和 RC以及基于源文献的QA。

KnowledgeHub是一个管道:

  1. 用户提交其研究领域的 PDF 文档集,然后将其转换为结构化文本
  2. 提供用户定义的本体,即实体类型和关系**。**基于浏览器的注释工具可以根据本体对 PDF 文档的内容进行注释。
  3. 再次注释上训练 NER 和 RC 模型,训练后的模型可用于自动注释未注释文档的部分。根据这些实体和关系三元组构建的知识图谱可通过查询获得某些见解。
  4. 还包括一个基于 RAG 的质量保证系统。

2.Model

1.Document Ingestion,文献结构化:

  1. 用户上传PDF压缩文件。使用 GROBID 工具将 PDF 内容转换为结构化XML,该工具可预测标题、标题、段落、脚注、参考文献、表格和数字等布局部分
  2. 提取 GROBID 预测的段落对象内的文本内容,然后使用 Stanza 库对其进行分段、标记和注释,以获取POS信息。

另外创建了一个 Neo4j 图数据库,句子与其源段落相连,段落与其源文档相连。可以存储标题、作者和出版年份等元数据。还可以为实体标记创建节点,并将它们与预测的关系链接起来。提取的文本也存储在一个向量数据库中。

2.Annotation,实体,关系信息抽取:

本体可以在浏览器界面中手动创建,也可以通过导入外部本体(如 EMMO)来创建。用户可使用 BRAT 注释工具在网络浏览器中将这些实体和关系映射到 PDF 内容上。

然后训练 NER 和 RC 模型。NER/RC 模型的预测结果用于在 KG 中创建连接的实体节点。

2.1.数据标注模式:

支持两种自动注释模式:

  • 第一种是基于正则表达式,根据用户定义的实体名称及其类型来标注目标文本。

  • 第二种是机器学习标注,将来自 BRAT 的标注保存为 JSON 格式,然后用于训练 NER 和 RC 模型。训练好的模型将应用于未标注的数据。

3.Question Answering,基于文献的QA:

KnowledgeHub 允许用户选择一个pdf和一个 LLM,然后提出一个问题。项目文件中最相关的三个段落会被检索出来。然后通过IBM Generative AI Python SDK,提示 LLM 从这些段落中生成汇总答案,以及从每个段落中生成单独答案。其还会返回一个 Neo4j 子图,显示三个最相关段落中的所有实体和关系对象。

3.原文阅读

Abstract

本文介绍了 KnowledgeHub 工具,这是一个科学文献信息提取(IE)和问题解答(QA)管道。该工具支持将 PDF 文档转换为文本和结构化表述,从而实现信息提取。然后可以构建一个本体,由用户定义他们想要捕捉的实体类型和关系。基于浏览器的注释工具可根据本体对 PDF 文档的内容进行注释。命名实体识别(NER)和关系分类(RC)模型可在由此产生的注释上进行训练,并可用于注释文档中未注释的部分。知识图谱由这些实体和关系三元组构建而成,可通过查询从数据中获取见解。此外,我们还集成了一套大型语言模型(LLM),可用于质量保证和总结,并通过检索组件将其置于所包含的文档中。KnowledgeHub是一款独特的工具,支持注释、IE和质量保证,让用户全面了解知识发现管道。

1 Introduction

长期以来,加速科学发现一直是研究人员和主题专家(SMEs)的目标。科学文献中包含的数据量越来越大,这意味着越来越需要自动化解决方案来有效提取信息,以开发新发现。人工智能(AI)和自然语言处理(NLP)研究的进步催生了规模更大、功能更强的模型,如 BERT,这些模型可用作标记分类任务的特征提取器,而标记分类任务一直是信息提取(IE)任务(如命名实体识别(NER)和实体间关系分类(RC))的基石。此外,以自回归方式预测标记的大型语言模型(LLM)和检索增强生成(RAG)等创新方法的发展,使得系统可以利用大量内部和外部知识来提高 LLM 响应的适用性和事实正确性。

介绍现有的科学文献信息抽取工具:

目前已开发出几种注释工具,主要用于 PDF 排版注释、语言注释或通过 NER 和 RC 进行 IE。还有一些工具可对文档进行质量保证。在上述背景下,PAWLS等工具使用户能够用标记的边界框注释 PDF 文档区域,然后该工具将预测其他文件的布局区域。PDFAnno、AnnIE 和 Autodive等语言标注工具侧重于为 NER 和 RC 等 IE 任务标注数据。

同样,BatteryDataExtractor也是一款专注于电池领域 IE 的工具,它带有一个附加的质量保证组件,但不支持注释。

介绍本文的 KnowledgeHub 工具-支持语言注释、NER 和 RC的 IE 以及源文献的 QA:

本文介绍的 KnowledgeHub 是一种新型工具,它涵盖了知识发现过程的基本方面:包括语言注释、使用 NER 和 RC 模型的 IE 以及基于源文献的 QA。为了实现这一目标,我们实施了一个管道,用户提交其研究领域的 PDF 文档集,然后将其转换为文本和结构化表示法然后可以提供用户定义的本体,本体定义了需要考虑的实体类型和关系基于浏览器的注释工具可以根据本体对 PDF 文档的内容进行注释。然后,可以在由此产生的注释上训练 NER 和 RC 模型,训练后的模型可用于自动注释未注释文档的部分。根据这些实体和关系三元组构建的知识图谱可通过查询获得某些见解。此外,我们还包括一个基于 RAG 的质量保证系统。在目前介绍的系统中,KnowledgeHub 是唯一支持注释、IE 和 QA 的工具(不同工具的概述见表 1)。

在这里插入图片描述

2 System Description

在这里插入图片描述

本节将介绍知识汇集管道。整个系统如图1所示。从高层来看,这是一个由使用 JavaScript、React 和 Carbon Design System 库构建的前端组成的应用程序。前端通过 Python Flask网络应用程序连接到后端。后端由 SQLite 数据库组成,用于存储运行应用程序所需的信息。还有一个 Neo4j图形数据库和一个向量存储,用于构建/查询知识图谱和执行 RAG。除了 RAG 管道中的 LLM 需要调用 API 之外,所有组件都可以在本地运行。我们还支持托管在 OpenShift 上的版本。

2.1.Document Ingestion

文献结构化:

用户上传单个 PDF 文件或包含多个 PDF 文件的压缩文件。使用 GROBID 工具将 PDF 内容转换为结构化 XML,该工具可预测标题、标题、段落、脚注、参考文献、表格和数字等布局部分。我们提取 GROBID 预测的段落对象内的文本内容,然后使用 Stanza 库对其进行分段、标记和注释,以获取Part-of-Speech(POS)信息。

在我们的设置中,每份文档都由段落组成,段落中的文本被分割成句子。我们创建了一个 Neo4j 图数据库,在其中创建了文档、段落和句子级别的节点。句子节点与其源段落节点相连,而段落节点又与其源文档节点相连。每篇文档都可以存储标题、作者和出版年份等元数据。正如我们将在第 2.2 节中讨论的,NER 和 RC 模型用于预测命名实体和关系,我们还为实体标记创建节点,并将它们与预测的关系链接起来。

提取的文本也存储在一个向量数据库中,我们使用的是 Chroma数据库。我们从提供多种嵌入模型的 LangChain库中获取嵌入模型。具体来说,我们使用的是由 Sentence-Transformers 库发布的 all-mpnet-base-v2 模型,但需要注意的是,用户可以通过更改模型名称或嵌入提供者来轻松替换该模型,以满足自己的需求。

2.2.Annotation

信息抽取:

本体可以在浏览器界面中手动创建,也可以通过导入外部本体(如 EMMO)来创建。导入本体时,用户选择实体及其相关关系。同样,我们基于浏览器的本体创建工具可以实现 i) 选择实体,ii) 指定某些实体之间的关系。这将生成一个配置文件,列出可能的关系三元组: (实体1、关系、实体2)。

用户可使用 BRAT 注释工具在网络浏览器中将这些实体和关系映射到 PDF 内容上。

我们为 NER 和 RC 实现了自己的模型。这些模型是用 PyTorch编写的,涉及在 BERT式模型之上放置一个线性层,用户可以从 HuggingFace 库中指定一个编码模型。NER 模型分为两个阶段:首先,基于跨度的模型预测实体跨度区域,包括嵌套结构;然后,实体分类器模型预测所选跨度的实体标签。RC 模型预测句子中所有实体对之间的关系类型(包括无关系)。NER/RC 模型的预测结果用于在 KG 中创建连接的实体节点。使用自定义模型的优势在于,我们无需依赖 spaCy等外部管道,而且可以在任何有注释的数据上进行训练。

数据标注模式:

我们支持两种自动注释模式:

  • 第一种是基于正则表达式,根据用户定义的实体名称及其类型来标注目标文本。

  • 第二种是机器学习标注,将来自 BRAT 的标注保存为 JSON 格式,然后用于训练 NER 和 RC 模型。训练好的模型将应用于未标注的数据。与人工标注相比,这大大减轻了用户的负担。

2.3.Question Answering

RAG 是一种用于指导 LLM 生成过程的方法,它根据检索与用户查询最相关的上下文,例如根据编码查询与编码文档之间的余弦距离,为 LLM 提供与上下文相适应的信息。KnowledgeHub 允许用户选择一个项目和一个 LLM,例如一个 Llama模型,然后提出一个问题。项目文件中最相关的三个段落会被检索出来。然后通过IBM Generative AI Python SDK,提示 LLM 从这些段落中生成汇总答案,以及从每个段落中生成单独答案。我们还会返回一个 Neo4j 子图,显示三个最相关段落中的所有实体和关系对象。我们将把图结构集成到 LLM 提示中作为今后的工作。

3 Use-case: Knowledge Discovery for the Battery Domain

在这里插入图片描述

在本节中,我们将展示如何在一个与电池领域相关的示例项目中使用 KnowledgeHub。用户首先识别并获取与其主题相关的PDF文档,然后基于BattINFO创建本体。用户在文档 d 1 d^{1} d1 的 1,988 个spans上标注了 150 种实体类型。然后,他们在 d 1 d^{1} d1 上对 BatteryBERT-cased进行微调,从而训练出一个 NER 模型,并自动注释了一个新文档 d 2 d^{2} d2,其中包含 73 种类型,spans为 1,464 个。如表 2 所示,这种域外(OOD)自动注释产生了 54.8% 的微型 F1 分数。这样,用户就无需从头开始为未知文档注释,从而将注释成本降低了一半以上。在修改了 d 2 d^{2} d2 的注释后,用户在 d 1 d^{1} d1 d 2 d^{2} d2 上训练了一个新的 NER 模型,并在 1,467 个跨度上自动注释了另一个包含 96 种类型的新文档 d 3 d^{3} d3。在 d 1 d^{1} d1 d 1 , 2 d^{1,2} d1,2 d 1 , 2 , 3 d^{1,2,3} d1,2,3上的域内 (ID) 结果分别为 52.8%、54.9% 和 61.9%,表明重复这一过程会提高模型的性能。

用户还可以对其文档进行质量保证,图 2 显示了使用指令调整的 Mistral 模型10 对例题 "高压锂离子电池有哪些有前途的材料 "进行的总结。图 3 所示的 KG 显示了被重新提取的上下文中的实体和关系。

在这里插入图片描述

4 Conclusion

在本文中,我们介绍了 KnowledgeHub,这是一款通过支持 NER 和 RC 等 IE 任务来辅助科学发现的工具。此外,我们还提供了用于基础总结和质量保证的 KG 和 RAG 组件,以提高 LLM 答案的事实正确性。我们通过一个例子展示了 KnowledgeHub 的实用性,在这个例子中,一名重新搜索者使用该工具协助他们进行与电池有关的项目研究。
在未来的工作中,我们希望探索更多结合图信息和检索上下文的方法。我们还希望根据 PDF 中的非文本项目(如表格和数字)实施质量保证。我们希望支持对 PDF 内容进行双向注释,并改进功能以支持注释者之间的一致意见。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值