【使用langchain对docx、pdf、txt文档进行自定义切分】

最新推荐文章于 2025-04-21 07:30:00 发布

小闪777

最新推荐文章于 2025-04-21 07:30:00 发布

阅读量4.2k

点赞数 24

分类专栏： python-AI 文章标签： langchain

本文链接：https://blog.csdn.net/xiaoshan_777/article/details/139241258

版权

文章目录

- 业务背景
- 技术细节

业务背景

在RAG方案中，由于使用langchain按字数的切分方案，导致文本的召回结果不是很理想，此模型为某证券公司的模型方案，知识库大多是规章制度、法律条例等等，所以个性化按照默认方案即字数切分、章节切分、条切分。

技术细节

使用langchain读取docx、pdf、txt文档

from langchain_community.document_loaders import PyPDFLoader, TextLoader, Docx2txtLoader

if file_name.endswith(".pdf"):
    loader = PyPDFLoader(file_path)
elif file_name.endswith(".txt"):
    loader = TextLoader(file_path)
elif file_name.endswith(".docx"):
    loader = Docx2txtLoader(file_path)
else:
    raise BizException("目前只支持pdf文件与txt、docx文件")

按照给定的条件切分，默认、章节、条，在切分过程中如果章节或者条所含的字数超过配置的extra_word_filter_size的字数则会将此章节或词条按默认的（500,100）切分，后面转化为Document是因为最终导入向量数据库必须是这个类型无需关注。

def load_pages_(loader, file_path, split_type, chunk_size, chunk_overlap):
    contents =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小闪777

关注关注

24
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

6. LangChain4j 基于RAG实现一套企业智能客服系统

gorgor在码农

07-17

2399

LLM的知识仅限于它所训练的数据。如果你想让 LLM 了解特定领域的知识或专有数据，你可以使用 RAG。什么是RAG？简而言之，RAG(检索增强生成) 是从数据中查找和注入相关信息的方法再将其发送到 LLM 之前添加到提示符中。这样，LLM将获得相关信息，并能够使用这些信息进行回复，这应该会降低幻觉的可能性。再简单一点，就是用户输入问题时, 我们先从我们的知识库查看答案，再把用户输的问题和我们知识库的答案，一起发送给大模型，让大模型根据我们的答案回复用户问题。

构建企业私有RAG系统全流程：从 PDF 到智能问答的落地实践

努力分享一些人工智能相关的知识干货！

04-01

883

- ✅ 企业文档 → 可搜索向量的标准处理链路 - ✅ 私有知识库的快速搭建方式（Chroma / FAISS） - ✅ RAG 问答系统从输入 → 召回 → 生成 → 输出的完整闭环 - ✅ 多轮问答 / 结构化返回 / 部署上线建议 📌 实战派不是看个 demo 就算结束，而是能“封起来，用得起，上得线”。

1 条评论您还未登录，请先登录后发表或查看评论

LangChain + 文档处理：构建智能文档问答系统 RAG 的实战指南

最新发布

博客虽小，世界尽在其中

04-21

1285

在这篇文章中，我们深入探讨了如何使用 LangChain 构建一个智能文档问答系统。文章通过实战案例，展示了如何将文档内容（如员工手册、规章制度等）从 Word 文件中提取、向量化，并存储到 FAISS 向量数据库中。通过结合 OpenAI 的 GPT 模型，我们创建了一个强大的问答系统，能够根据用户的问题从文档中检索相关信息，并生成准确的答案。本文详细介绍了文档加载、文本切分、向量化存储和智能问答的核心流程，帮助读者理解如何实现高效的文档处理和检索机制，从而在实际应用中为企业或个人提供智能化的文档管理和问

【LangChain系列】第二篇：文档拆分简介及实践

2301_81888214的博客

06-05

1292

在上一篇博客中，我们学习了如何使用LangChain的文档加载器将文档加载为标准格式。加载文档后，下一步是将它们拆分为更小的块。

langchain框架-文档加载器详解

wend的博客

04-15

881

本文基于 LangChain 0.3.21 版本源码，梳理中涵盖的各类文档加载器。读者可按需查找，快速确认所需加载的文档能否能借助 LangChain 进行便捷的处理。若上述表格中未涵盖您所需的文档加载器，您可借助 LangChain 的BlobLoader与，灵活创建自定义文档加载器。通过这种方式，无论是特殊格式文件、小众数据源，还是特定场景下的数据读取需求，均可得到满足。具体实现方法与详细示例，您可参考 LangChain 官方文档获取指导。

在LangChain中加载和处理PDF文档

weixin_44217158的博客

09-05

2266

PDF（Portable Document Format）是一种广泛使用的文件格式，最初由Adobe在1992年开发，用于以一种与应用程序软件、硬件和操作系统无关的方式呈现文档。此外，通过向量数据库检索器，我们可以轻松地在大量文档中定位相关的信息。一旦加载了PDF文件，我们就可以将各个页面的内容拼接起来，形成一个连续的文本流，以便进一步处理。接下来，我们将使用向量数据库来生成一个检索器，并通过设置相似度阈值来限制检索结果。为了能够高效地检索文档内容，我们可以将加载的文档嵌入到向量数据库中。

【RAG入门教程04】Langchian的文档切分

yanqianglifei的专栏

06-09

3094

在 Langchain 中，文档转换器是一种在将文档提供给其他 Langchain 组件之前对其进行处理的工具。通过清理、处理和转换文档，这些工具可确保 LLM 和其他 Langchain 组件以优化其性能的格式接收数据。上一章我们了解了文档加载器，加载完文档之后还需要对文档进行转换。

langchain实现对word文档按指定内容（标题）分割内容

LoginHaoYu的博客

05-28

984

1.安装需要的库 docx库用于读取word文档中的内容，withopen方法读取可能会因为格式问题报错，所以采取这种方法读取文档内容。2.参考langchain官方文档方法对指定内容进行分割内容。

LangChain教程 | langchain 文本拆分器 | Text Splitters全集

HRG520JN的博客

03-28

1万+

一旦加载了文档，您通常会想要转换它们以更好地适应您的应用程序。最简单的例子是，您可能希望将一个长文档分割成更小的块，以便适合模型的上下文窗口。LangChain有许多内置的文档转换器，可以轻松地拆分、组合、过滤和操作文档。当你想处理很长的文本时，有必要将文本分割成块。虽然这听起来很简单，但这里有很多潜在的复杂性。理想情况下，您希望将语义相关的文本片段放在一起。“语义相关”的含义可能取决于文本的类型。示例展示了几个方法来做到这一点。将文本分成语义上有意义的小块（通常是句子）。

langchain教程-5.DocumentLoader/多种文档加载器

the_3rd_bomb的博客

02-06

1093

该系列教程的代码: https://github.com/shar-pen/Langchain-MiniTutorial我主要参考 langchain 官方教程, 有选择性的记录了一下学习内容这是教程清单用于存储一段文本及其相关元数据的类。metadata是一个用于从加载Document的类。CSVLoaderJSONLoaderTextLoader可以观察到，这种方法作为一个 async_generator工作。它是一种特殊类型的异步迭代器，能够值，而不需要一次性将所有值存储在内存中。

《易车实战学习Langchain开发》-01-使用Langchain构建“易车”销售平台智能问答系统

静愚AGI

07-22

1646

项目名称：“易车”——汽车销售智问智答。项目介绍：“易车”作为一个大型的在线汽车销售问答系统，有业务流程和规范，同时也有员工的销售指导手册。新员工入职销售培训时，会分享相关的信息。但是，这些信息分散于内部网和其他部门目录各处，有时不便查询；有时因为文档过于冗长，员工无法第一时间找到想要的内容；有时公司销售政策已更新，但是员工手头的文档还是旧版内容。基于上述需求，我们将开发一套基于各种内部汽车销售知识的 “LLM-QA” 系统。

【LangChain学习】基于PDF文档构建问答知识库（三）实战整合 LangChain、OpenAI、FAISS等

08-09

1万+

实战整合 LangChain、OpenAI、FAISS等技术链，构建基于pdf的知识问答库，同时配合自定义提示PromptTemplate，优化问答效果

nodejs langchain 文件分割

m0_56381003的博客

10-18

291

nodejs langchain 文件分割。

LangChain核心模块 Retrieval——文本分割

weixin_43787408的博客

03-24

1871

是一个“结构感知”分块器，它在元素级别拆分文本，并为每个与任何给定块“相关”的标题添加元数据。这样做的效果是尝试将所有段落（然后是句子，然后是单词）尽可能长时间地放在一起，因为这些通常看起来是语义相关性最强的文本片段。“语义相关”的含义可能取决于文本的类型。在较高层次上，它会分成句子，然后分成 3 个句子为一组，然后合并嵌入空间中相似的句子。检索的关键部分时仅获取文档的相关部分，主要任务之一是将大文档分割为更小的块。最简单的例子是，将长文档分割成更小的块，以适合模型的上下文窗口。

使用LangChain框架加载与解析txt,markdown,pdf,jpg格式文档

qq_45257495的博客

01-03

9150

使用LangChain库进行文档加载，对于txt,md,pdf格式的文档，都可以用LangChain类加载，UnstructuredFileLoader（txt文件读取）、UnstructuredFileLoader（word文件读取）、MarkdownTextSplitter（markdown文件读取）、UnstructuredPDFLoader（PDF文件读取），对于jpg格式的文档，我这里提供了一种思路。

LangChain教程 - RAG - PDF解析

花千树的专栏

01-30

3409

基于库，提供智能的内容解析功能，能够自动将文档拆分为不同的部分，如段落、标题、表格等，并支持将结果输出为JSON格式。此外，它还集成了OCR功能。特点适用于格式复杂的PDF文档。能够按块解析长文档，提供结构化数据。支持JSON格式输出，方便进一步处理。结合OCR技术，能够处理包含图片的PDF。适用场景需要按内容块拆分的文档。需要提取不同层级信息（如标题、正文、表格）。需要结构化输出（如JSON格式）。LangChain提供了丰富的PDF解析工具，适用于不同场景的文档处理需求。

使用langchain与你自己的数据对话(一)：文档加载与切割

【 使用langchain对docx、pdf、txt文档进行自定义切分】

文章目录

业务背景

技术细节

【使用langchain对docx、pdf、txt文档进行自定义切分】