【牛津大学最新研究】医学GraphRAG：用知识图谱打造安全的医疗AI新时代！

本文链接：https://blog.csdn.net/weixin_53028400/article/details/141270059

Medical Graph RAG:

Towards Safe Medical Large Language Model via

Graph Retrieval-Augmented Generation

Junde Wu, Jiayuan Zhu, Yunli Qi（牛津大学）

发表于预印本服务器arXiv上

2024-8-8

摘要：

我们介绍了一个名为MedGraphRAG的新型基于图的检索增强生成（RAG）框架，专门为医疗领域设计，旨在增强大型语言模型（LLM）的能力并生成基于证据的结果，从而在处理私人医疗数据时提高安全性和可靠性。我们全面的流程始于一种混合静态语义的文档分块方法，这显著改善了传统方法中的上下文捕获。提取的实体被用来创建一个三层层次图结构，将实体链接到来源于医学论文和字典的基础医学知识。然后这些实体相互连接形成元图，这些元图基于语义相似性合并，以形成一个全面的全局图。这种结构支持精确的信息检索和响应生成。检索过程采用U-检索方法来平衡LLM的全局意识和索引效率。我们的方法通过一项全面的消融研究进行了验证，比较了文档分块、图构建和信息检索的各种方法。结果不仅证明了我们的层次图构建方法在多个医学问答基准测试中一贯优于最新技术模型，而且还确认生成的响应包括了源文档，显著提高了医学LLM在实际应用中的可靠性。

文章贡献：

1. 在提出一个综合管道以在医学领域中应用GraphRAG 方面处于领先地位；

2. 开发了独特的图构建和数据检索方法，使得 LLM 能够利用全面的私人数据生成基于证据的响应；

3. 在主流基准上进行了验证实验，凭借各种模型变体达到了最先进的（SOTA）性能。

一、引言：

1.1 大语言模型（LLM）在专业领域存在局限性，面临挑战：

（1）部署挑战：在金融、法律和医学等专业领域部署LLMs复杂，因为它们处理长文本困难，且微调成本高昂；

（2）准确性问题：在医学等对精确性要求高的领域，LLMs可能产生误导性输出，即“幻觉”，这可能导致严重后果。

此外，LLMs可能无法提供深入见解，仅给出简单答案，不足以满足需要复杂推理的领域。

1.2 检索增强生成（RAG）及其发展

RAG允许使用特定数据集回答问题，无需模型进一步训练。最初设计用于特定文本区域的答案检索，但面临以下挑战：

（1）合成新见解的局限：在整合通过共享属性链接的信息片段时可能表现不佳；

（2）整体理解的不足：在理解大数据集或长文档的语义概念时表现不佳。

图RAG方法：通过LLMs创建知识图谱，结合图机器学习，增强查询处理的提示增强，显著提升性能

1.3 医学图RAG（MedRAG）的创新方法

提出MedRAG，一种新颖的图RAG方法，通过以下方式提高LLMs在医学领域的应用：

（1）三层层次化图构建方法，确保结果的透明性和可解释性；

（2）使用用户提供的文档提取实体，链接到基础医学知识，构建综合图谱。

1.4 响应用户查询的策略

实施U检索策略，结合自上而下的检索和自下而上的响应生成，保持全局意识和LLMs的上下文限制之间的平衡。

1.5 医学图RAG的优势

提供内在的源引用，增强LLM的透明性、可解释性和可验证性，确保输出的准确性和可靠性。

1.6 评估与实验

在包括ChatGPT和LLaMA在内的多个LLMs上实施MedRAG，通过PubMedQA、MedMCQA和USMLE等医学问答基准进行测试，显著提升性能，超越了经过微调或特别训练的模型。

二、方法论

MedGraphRAG是一个创新的框架，它通过专门处理私有医疗数据，显著提升了大型语言模型（LLMs）在医学领域的应用。该框架包括医疗文件的分段、实体提取，并通过一个三层层次图结构组织这些实体，从而形成一个综合的全局图谱。这一结构不仅优化了信息检索过程，还增强了对用户查询的响应生成，确保了回复的精确性和上下文相关性。

2.1 医学图谱构建

语义文档分段：采用混合方法，结合字符分隔和基于主题的分段，以适应LLMs的上下文限制，提高了文档处理的准确性。

元素提取：使用LLMs识别和提取文本中的实体，并为每个实体生成名称、类型和描述，同时分配唯一ID以追踪来源。

层级链接：构建了一个三-tiered RAG数据结构，将用户文档中的实体链接到医学教科书和论文中的实体，再链接到UMLS中的医学术语和知识关系。

（1）第一层由用户提供的文档组成，例如来自特定医院的高度机密医疗报告；

（2）第二层使用医学教科书和学术文章构建；

（3）第三层包括几个明确定义的医学术语及其知识关系。

关系链接：利用LLMs识别相关实体间的关系，生成加权有向图，即元图，为系统提供基础构建块。

Figure1: MedGraphRAG framework.

标签生成与图谱合并：通过计算元图之间的相似性，合并相似度最高的元图，形成一个新的全局图，同时保留原始元图和标签以便于索引。

2.2 从图谱检索：

LLMs通过U-retrieve策略高效检索信息，结合顶层的摘要标签描述和索引，生成详细且准确的最终响应。

三、实验

3.1 数据集

3.1.1 RAG数据

设计了三个不同级别的数据，包括顶层的私人用户信息、中层的可信医学书籍和论文，以及底层的权威医学词汇数据。

3.1.2 测试数据

使用了PubMedQA、MedMCQA和USMLE等数据集进行测试。

3.2 LLM models

LLAMA2

在原始LLAMA数据集的基础上，LLAMA2通过包含更多多样化和复杂的语言任务扩展了评估框架，可能解决了初始版本中识别的局限性和空白。尽管LLAMA2的具体细节可能具有假设或推测的性质，但人们可以期待它将继续关注强大、全面的语言分析，完善工具和方法，以更好地衡量语言理解和生成中的细微差别。

LLAMA3

LLAMA3是LLAMA系列大型语言模型的最新版本，旨在提高自然语言理解和生成的能力。在其前身LLAMA和LLAMA2的成功基础上，LLAMA3融合了更复杂的算法和更广泛的数据集，以增强其在各种语言任务中的表现。

GPT-4

由OpenAI开发的ChatGPT-4是生成预训练变换器模型的一个版本，已经在多样化的互联网文本上进行了训练。作为一个更先进的版本，ChatGPT-4在理解和生成类人文本的能力上相较前代模型有了改进，使其能够进行更加连贯和与上下文相关的对话。该模型旨在执行广泛的任务，包括但不限于翻译、问答和内容生成，展示了在处理复杂对话场景和细微语言差异方面的显著进步。

Gemini

谷歌的Gemini是一个尖端语言模型，旨在增强对话AI系统的能力。作为谷歌在自然语言处理方面持续努力的一部分，Gemini旨在提供比以往模型更细致和上下文感知的互动。该模型利用深度学习技术理解和生成类人响应，使其适用于虚拟助手、客户支持和互动应用等广泛的场景。

3.3 结果

3.3.1 MedGraphRAG效果

MedGraphRAG显著提升了LLMs在医学基准测试上的性能，特别是对于较小的模型如LLaMA2-13B和LLaMA3-8B。结果如表1所示。

Figure2: Compare to SOTA Medical LLM Models on MedQA benchmark.

Table 1: The improvement of MedGraphRAG on various LLMs.

3.3.2 基于循证的回复

提供了基于证据的回复，增强了LLMs的透明性、可解释性和可验证性。结果如图3所示。

Figure3: Example case shows MedGraphRAG generating evidence-based responses with grounded citations and terminology explanations.

3.3.3 与SOTA医疗LLM模型比较

在与之前最先进模型的比较中，MedGraphRAG展现了优越的性能，尤其是在使用GPT-4时。结果如图2所示。

3.3.4 消融研究

验证了文档切分、图构建和信息检索方法的有效性，证明了MedGraphRAG在提高检索准确性和相关性方面的优势。结果如表2所示。

Table 2: An ablation study on MedGraphRAG.

四、总结

综上所述，本文介绍了MedGraphRAG，一个新颖的基于图谱的检索增强生成RAG框架。该框架增强了大语言模型LLMs的能力，我们的方法结合了先进的文档分块和分层图结构，显著提高了数据组织和检索准确性。我们的消融研究确认了在医疗问答基准上相较于最先进模型的优越表现，并提供了对医疗应用至关重要的可信源链接的回应。未来，我们旨在扩展该框架以包括更多样化的数据集并探索其在实时临床环境中的潜力。