142 深入解析 `build_semantic_nodes_from_documents`：构建语义节点的艺术（语义分割怎么构建节点）

最新推荐文章于 2024-09-25 09:46:06 发布

需要重新演唱

最新推荐文章于 2024-09-25 09:46:06 发布

阅读量772

点赞数 25

分类专栏： llamindex文章文章标签：人工智能机器学习深度学习 RAG LLM

本文链接：https://blog.csdn.net/xycxycooo/article/details/142353765

版权

llamindex文章专栏收录该内容

162 篇文章 4 订阅

订阅专栏

深入解析 `build_semantic_nodes_from_documents`：构建语义节点的艺术

在处理文本数据时，如何有效地将大段文本分割成语义相关的块（chunks）是一个常见且重要的任务。LlamaIndex 提供了一个强大的工具 build_semantic_nodes_from_documents，可以帮助我们实现这一目标。本文将深入探讨这个函数的内部机制，并通过详细的代码示例和解释，帮助你全面理解其工作原理及实际应用。

1. 前置知识

在深入代码之前，我们需要了解一些基本概念：

文档（Document）：文档是文本数据的载体，通常包含一段或多段文本。
节点（Node）：节点是文本分割后的基本单位，每个节点包含一段语义相关的文本。
嵌入（Embedding）：嵌入是将文本转换为向量表示的过程。相似的文本在向量空间中距离较近，不相似的文本距离较远。
相似性（Similarity）：相似性是衡量两个向量之间距离的指标。常用的相似性度量方法包括余弦相似性和欧氏距离。

2. 函数概述

build_semantic_nodes_from_documents 函数的主要功能是将输入的文档列表分割成语义相关的节点。具体步骤如下：

分割句子：将文档中的文本分割成句子。
构建句子组：将句子分组，形成语义相关的句子组。
计算嵌入：为每个句子组计算嵌入向量。
计算距离：计算句子组之间的相似性距离。
构建节点：根据相似性距离构建语义节点。

3. 代码详解

下面是 build_semantic_nodes_from_documents 函数的详细代码及解释：

from typing import List, Sequence
from llama_index.core.document import Document
from llama_index.core.node import BaseNode
from llama_index.core.node_parser import build_nodes_from_splits

def build_semantic_nodes_from_documents(
    self,
    documents: Sequence[Document],
    show_progress: bool = False,
) -> List[BaseNode]:
    """Build window nodes from documents."""
    all_nodes: List[BaseNode] = []
    
    # 遍历每个文档
    for doc in documents:
        text = doc.text
        
        # 使用句子分割器将文本分割成句子
        text_splits = self.sentence_splitter(text)
        
        # 构建句子组
        sentences = self._build_sentence_groups(text_splits)
        
        # 为每个句子组计算嵌入向量
        combined_sentence_embeddings = self.embed_model.get_text_embedding_batch(
            [s["combined_sentence"] for s in sentences],
            show_progress=show_progress,
        )
        
        # 将嵌入向量添加到句子组中
        for i, embedding in enumerate(combined_sentence_embeddings):
            sentences[i]["combined_sentence_embedding"] = embedding
        
        # 计算句子组之间的相似性距离
        distances = self._calculate_distances_between_sentence_groups(sentences)
        
        # 根据相似性距离构建节点块
        chunks = self._build_node_chunks(sentences, distances)
        
        # 从分割块构建节点
        nodes = build_nodes_from_splits(
            chunks,
            doc,
            id_func=self.id_func,
        )
        
        # 将节点添加到总节点列表中
        all_nodes.extend(nodes)
    
    return all_nodes

3.1 代码解释

3.1.1 分割句子

text_splits = self.sentence_splitter(text)

句子分割器：sentence_splitter 是一个工具，用于将文本分割成句子。分割后的句子将作为后续处理的基本单位。

3.1.2 构建句子组

sentences = self._build_sentence_groups(text_splits)

句子组：_build_sentence_groups 函数将分割后的句子分组，形成语义相关的句子组。每个句子组包含一组在语义上相关的句子。

3.1.3 计算嵌入

combined_sentence_embeddings = self.embed_model.get_text_embedding_batch(
    [s["combined_sentence"] for s in sentences],
    show_progress=show_progress,
)

嵌入模型：embed_model 是一个嵌入模型，用于将句子转换为向量表示。get_text_embedding_batch 函数批量计算句子的嵌入向量。
嵌入向量：每个句子组会被转换为一个嵌入向量，表示该句子组的语义特征。

3.1.4 计算距离

distances = self._calculate_distances_between_sentence_groups(sentences)

相似性距离：_calculate_distances_between_sentence_groups 函数计算句子组之间的相似性距离。距离越小，相似性越高；距离越大，相似性越低。

3.1.5 构建节点块

chunks = self._build_node_chunks(sentences, distances)

节点块：_build_node_chunks 函数根据相似性距离构建节点块。每个节点块包含一组在语义上相关的句子组。

3.1.6 构建节点

nodes = build_nodes_from_splits(
    chunks,
    doc,
    id_func=self.id_func,
)

节点构建：build_nodes_from_splits 函数从分割块构建节点。每个节点包含一段语义相关的文本。

3.1.7 合并节点

all_nodes.extend(nodes)

合并节点：将每个文档构建的节点合并到总节点列表中，最终返回所有节点。

4. 实际应用

build_semantic_nodes_from_documents 函数在许多应用场景中都非常有用，例如：

文本摘要：将长篇文章分割成语义相关的块，然后生成每个块的摘要，最后合并成完整的摘要。
问答系统：将文档分割成语义相关的块，然后根据用户的问题检索最相关的块，生成答案。
机器翻译：将长句子分割成语义相关的短句，然后分别进行翻译，最后合并成完整的翻译结果。

5. 总结

build_semantic_nodes_from_documents 是一个强大的工具，可以帮助我们有效地将大段文本分割成语义相关的块。通过详细的代码解释和示例，我们深入探讨了其内部机制和工作原理。希望本文能够帮助你更好地理解和应用这一技术！

如果你有任何问题或建议，欢迎在评论区留言！