LangChain核心模块 Retrieval——文本分割_langchain 语义分割-CSDN博客

本文链接：https://blog.csdn.net/weixin_43787408/article/details/136985584

文章介绍了LangChain中的文本分割技术，包括如何将大文档分割成语义相关的文本片段，如按句子、HTML标签、Markdown符号等。特别提到了SemanticChunking，它通过语义相似性合并文本块，以保持上下文关联。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Text Splitters

文本分隔

检索的关键部分时仅获取文档的相关部分，主要任务之一是将大文档分割为更小的块。

最简单的例子是，将长文档分割成更小的块，以适合模型的上下文窗口。

LangChain 有许多内置的文档转换器，可以轻松地拆分、组合、过滤和以其他方式操作文档。

理想情况下，希望将语义相关的文本片段保留在一起。“语义相关”的含义可能取决于文本的类型。下面展示了实现此目的的几种方法。

在较高层面上，文本分割器的工作原理如下：

将文本分成小的、具有语义意义的块（通常是句子）
开始将这些小块组合成一个更大的块，直到达到一定的大小（通过某些函数测量）。
一旦达到该大小，请将该块设为自己的文本片段，然后开始创建具有一些重叠的新文本块（以保持块之间的上下文）。

这意味着可以沿着两个不同的轴自定义文本拆分器：

如何分割文本
如何测量块大小

Types of Text Splitters

LangChain 提供了多种不同类型的文本分割器。这些都位于 langchain-text-splitters 包中。下表列出了所有这些以及一些特征：

Name：文本分割器的名称
Splits On：该文本分割器如何分割文本
Adds Metadata：该文本拆分器是否添加有关每个块来自何处的元数据
Description：分割器的描述，包括有关何时使用它的建议

Name	Splits On	Adds Metadata	Description
Recursive	用户定义的字符列表		递归地分割文本，递归地分割文本的目的是尝试使相关的文本片段彼此相邻。(推荐)
HTML	HTML 特定字符	√	根据 HTML 特定字符分割文本，值得注意的是，添加了有关该块来自何处的相关信息（基于 HTML）
Markdown	Markdown 特定字符	√	根据 Markdown 特定字符分割文本，值得注意的是，这添加了有关该块来自何处的相关信息（基于 Markdown）
Code	code(Python、JS)特定字符		根据特定于编码语言的字符分割文本，有 15 种不同的语言可供选择。
Token	Tokens		根据token分隔文本，有几种不同的方法衡量tokens
Character	用户定义的字符		根据用户定义的字符拆分文本，比较简单的方法之一。
[Experimental] Semantic Chunker	句子		首先对句子进行分割。然后，如果它们在语义上足够相似，则将它们相邻地组合起来。

HTMLHeaderTextSplitter

概念上类似于 MarkdownHeaderTextSplitter、HTMLHeaderTextSplitter是一个“结构感知”分块器，它在元素级别拆分文本，并为每个与任何给定块“相关”的标题添加元数据。它可以逐个元素返回块或将具有相同元数据的元素组合起来，目标是 (a) 保持相关文本在语义上（或多或少）分组；(b)保留文档结构中编码的上下文丰富的信息。它可以与其他文本分割器一起使用，作为分块管道的一部分。

使用示例：