# RAG | Langchain # Langchain RAG：打造Markdown文件的结构化分割解决方案

向日葵花籽儿

已于 2024-04-16 11:20:26 修改

阅读量1.1w

点赞数 43

分类专栏： LangChain 教程 RAG AIGC 文章标签： langchain 人工智能 AIGC RAG python chunk 文档分割

于 2024-04-15 17:37:56 首次发布

本文链接：https://blog.csdn.net/weixin_45312236/article/details/137788957

版权

本文介绍了如何通过MarkdownHeaderTextSplitter和Langchain技术对Markdown文档进行结构化分割，以提高文本分析的效率和RAG效果，特别关注于文档的标题层级和上下文信息的保留，为知识管理和应用开发提供了新方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【文章简介】
在信息技术的现代背景下，高效地处理和分析文本数据对于知识获取和决策支持至关重要。Markdown文件因其易读性和高效性，在文档编写和知识共享中占据了重要地位。然而，传统的文本处理方法往往忽视了Markdown的结构化特性，未能充分挖掘文本的深层含义和主题。

本文介绍了一种创新的结构化分割方法，利用Langchain技术，通过MarkdownHeaderTextSplitter工具，根据标题层级进行精确分割，同时保留文本的上下文和结构信息。这种方法特别适合处理报告、教程等结构化文档，有助于提升文本向量化（embedding）的效果。
正如Pinecone所指出的，当整个段落或文档被嵌入时，嵌入过程会同时考虑整体上下文和文本内部句子与短语之间的关系，从而产生更全面的向量表示，捕获文本的更广泛含义和主题。
此外，RecursiveCharacterTextSplitter工具适用于需要均匀文本块的自然语言处理任务，而UnstructuredMarkdownLoader则将Markdown文件转换为Langchain对象，通过mode="elements"选项，进一步增强了文本块的独立性和分析的灵活性。

这种方法不仅提高了文本分析的效率和准确性，而且通过优化embedding过程，显著增强了RAG（Retrieval-Augmented
Generation）效果，为Markdown文件的深入利用和知识管理开辟了新路径。

MarkDown

Markdown是一种轻量级标记语言，用于使用纯文本编辑器创建格式化文本。
优势：纯文本、有语义（用纯文本表示的语义）

使用`MarkdownHeaderTextSplitter`获取markdown结构

调用方法

%pip install -qU langchain-text-splitters

我们可以自己规定分割的chunksize、标题层级

标题层级分割

# 1 标题
## 1.1 标题
### 1.1.1 标题
#### 1.1.1.1 标题
1.1.1.1 内容

# 2 标题
2 内容
## 2.2 标题
2.2 内容

# 读取markdown内容
content_path= r"xxx.md"
with open(content_path, "r") as f:
    page_content = f.read()


from langchain_text_splitters import MarkdownHeaderTextSplitter

markdown_document = page_content

headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)
md_header_splits = markdown_splitter.split_text(markdown_document)
for i, doc in enumerate(md_header_splits):
    print("-------------------------------------------------------")
    print(f"Document {
     i+1}:")
    print("Page content:")
    print(doc.page_content)
    print("Metadata:")
    for key, value in doc.metadata