dify实现分析-rag-文档内容提取

最新推荐文章于 2025-04-28 14:17:13 发布

一铭

最新推荐文章于 2025-04-28 14:17:13 发布

阅读量4.2k

点赞数 12

分类专栏：大模型(LLM) 文章标签：人工智能 LLM 大模型

本文链接：https://blog.csdn.net/zg_hover/article/details/145691098

版权

dify实现分析-rag-文档内容提取

概述

在文章《dify实现原理分析-上传文件创建知识库总体流程》中已经介绍了，文件上传后索引构建的总体流程，本文介绍其中的“Extract: 提取文档内容:这里会按段落或整页来获取文档内容”步骤的实现。

这一步的主要功能是：从不同格式的文档中提取文本内容，这里的格式包括：pdf、word、csv、html、txt、markdown、ppt等等。不同格式的文本，需要使用的文本获取的类和对象不同。

文档的内容获取是在IndexingRunner._extract函数中实现。该函数的声明如下：

    def _extract(
        self, index_processor: BaseIndexProcessor, dataset_document: DatasetDocument, process_rule: dict
    ) -> list[Document]:

IndexingRunner._extract函数

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一铭

关注关注

12
点赞
踩
19

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

[DeepSeek]一、DeepSeek+Dify创建工作流

weixin_44428807的博客

02-19

2151

取好一个名字：test1 之后，添加“文档提取器”，大模型没有办法直接处理文档，因此添加一个“文档提取器”的节点。文档提取器 --> 输入变量（input），为开始节点设置的变量。最后添加一个结束节点，一条工作流就完成了。开始节点 -> 选择"单文件"作为输入。创建工作流：文档总结规划。

Dify知识库-RAG流程解析

一次次探索代码无限可能的旅程，专注于前端、后端、服务器及AI大模型的分享和交流。与我一起踏上这段无尽的技术之旅吧！

11-20

1949

代码目录：api/core/rag/index_processor/processor/paragraph_index_processor.py。代码目录：api/core/rag/index_processor/processor/paragraph_index_processor.py。根据文件后缀名调用不同的文档解析器提取文档内容，根据不同的文本格式，调用不同的类，去处理文本，最终会返回提取的文本内容。代码目录：api/core/rag/extractor/extract_processor.py。

1 条评论您还未登录，请先登录后发表或查看评论

Dify 文档提取器支持自建OCR服务

libertyspy的博客

04-20

696

Dify 文档提取器支持自建OCR服务

dify实战-基于Ollama+deepseek搭建文件翻译智能体

AI agent

03-15

1196

指导完成通过dify，基于Ollama+Deepseek完成翻译上传的文件的智能体

Dify文件对话！3步教会AI「读懂」你的PDF/PPT/Excel

最新发布

sinat_29950703的博客

04-28

947

输出变量固定命名为 text。配置上传文件类型、最大上传数和支持的文件类型。在探索界面，选择“文件对话助手”打开“预览-管理-功能勾选。上传文件，即可进行对话。文档提取器的text。

将Dify文档中的CSV数据提取并用ECharts可视化工具开发指南

engchina的专栏

03-15

3261

将Dify文档中的CSV数据提取并用ECharts可视化工具开发指南

Dify+deepseek+工作流，通过文档提取实现文档合规性检查

qq_15079661的博客

03-14

3445

通过工作流，可视化界面快速构建复杂的工作流和自动化流程。结合文档识别技术和工作流引擎，可以实现文档的自动识别、数据提取后对比知识库的信息，提示文档的内容是否正确，减少认为判断错误的误差。

dify 上传文件code模块读取；沙盒包安装

weixin_42357472的博客

04-01

723

将需要的依赖放入/docker/volumes/sandbox/dependencies/python-requirements.txt，重启sandbox即可。requirements.txt文件中指定源：-i https://pypi.tuna.tsinghua.edu.cn/simple。在官方 docker-compose.yaml 中，找到 sandbox 的 image 部分内容，替换镜像即可。修改docker-compose.yaml ，修改完docker compose up。

deepseek+dify：爬取网站多篇文章，批量提取和输出热点摘要（一）

bagell的博客

03-13

3973

设想方案概述：Dify（迭代节点）+Firecrawl（网页抓取）+Deepseek（大模型）一）安装Firecrawl工具二）详细操作步骤第一步：创建Dify应用1. 点击创建工作流，命名 “AI资讯八爪鱼”2. 整体流程说明：开始节点 - 页面抓取 - 迭代节点（LLM节点） - 输出节点。第二步：配置开始节点第三步：配置网页工具节点选取工具-firecrawl，选择“地图式快爬”（获取网站上所有的网址）。将输入变量设置为开始节点的 URL参数；

Dify工作流中的参数提取节点

NLP工程化

07-10

9526

利用 LLM 从自然语言推理并提取结构化参数，用于后置的工具调用或 HTTP 请求。Dify 工作流内提供了丰富的工具选择，其中大多数工具的输入为结构化参数，参数提取器可以将用户的自然语言转换为工具可识别的参数，方便工具调用。工作流内的部分节点有特定的数据格式传入要求，如迭代节点的输入要求为数组格式，参数提取器可以方便的实现结构化参数的转换。

dify实现分析-rag-关键词索引的实现

zg_hover的专栏

02-19

1427

关键词索引方式不需要其他额外的存储组件就可以完成索引的构建，成本相对比较低，比较经济实惠。但该方式是通过分词和关键词匹配方式来构建的文本块查询，比起通过向量和语义匹配的方式，有一定的局限性，选择那种方式，需要根据具体的场景来确定。

Dify框架增强：RAG 能力提升探索与实践

易迟的专栏

08-14

3832

在之前的文章来自工业界的开源知识库 RAG 项目最全细节对比中介绍过，现有 RAG 开源项目中，Dify 的生态良好，但是一个明显的短板就是 RAG 检索能力偏弱。因此一直期望能补全这个短板，从而让 Dify 能真正好用起来。在基于开源项目二次开发建议方案探索了 Dify 的增强策略。实际选择了文章中提到的中策，基于模块化增强 Dify。Dify 的 RAG 已经支持了大量的 RAG 基础能力与可视化页面，如果通过额外的插件拓展支持，那么现有的 RAG 基础流程无法复用，开发的工作量太大。

有手就会之使用Dify构建RAG聊天应用(基于私有知识库和搜索引擎)

笑笑布丁的博客

09-02

1770

Dify 是一款开源的大语言模型(LLM) 应用开发平台。它融合了后端即服务（Backend as Service）和 LLMOps 的理念，使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员，也能参与到 AI 应用的定义和数据运营过程中。通俗点说，通过手机点击创建ai应用，而不用写代码了。官网链接阅读本文之前，假设读者已经了解llm、prompt、chatglm、git、github、docker、rag流程、向量数据(embedding)的相关知识，假如没有，可以先学习这些知识。

在Dify中使用Echarts生成一个图表

huan的学习记录

03-23

2726

在Dify中通过文件上传的方式，获取到文件数据，然后通过Echarts进行图表的展示。

dify案例分享-基于文本模型实现Fine-tune 语料构造工作流

Code1994的博客

01-18

7859

微调（Fine-tuning）是指在已经预训练好的大规模模型基础上，通过进一步训练来适应特定任务或数据集的过程。这一过程体现了迁移学习的思想，即利用预训练模型在通用数据上学习到的知识，通过微调使其更好地服务于特定的应用场景.

本地部署DeepSeek-R1（Dify对话框上传文件+本地知识库对话）

万物皆可学

02-18

5761

由于Dify默认通过简单的配置快速搭建一个基于 LLM 的对话机器人，对话是不支持文件上传的，只能简单文字对话。这样过于弱鸡不可能每次需要分析文档就先去知识库上传文档再回来对话，过于繁琐。创建一个新的应用，选择Chatflow选择功能，打开文件上传功能，点击设置按钮，自定义文件上传属性设置现在聊天助手已经支持对话文件上传了，但是DeepSeek并不知道文档里面有什么信息，这个时候需要添加节点提前识别出文档的内容在AI模型节点的前面加上一个列表操作的节点，用来识别对话的时候是否上传了文件。

Dify PDF文件解析

qq_61210289的博客

03-13

4138

是一款开源的大语言模型(LLM) 应用开发平台，它融合了后端即服务（Backend as Service）和的理念，使开发者可以快速搭建生产级的生成式 AI 应用。即使你是非技术人员，也能参与到 AI 应用的定义和数据运营过程中。但是在构建dify知识库的时候发现，dify对pdf文件的解析能力很差，它使用的是PyMuPDF包，这使得dify不能解析纯图片类的pdf文件，也不能保存pdf文档中的图片。

dify案例分享-基于多模态模型的发票识别2-多种发票识别

xx_nm98的博客

11-04

2920

本期文章我们在原有的单张发票识别基础上实现多种发票识别的dify基于工作流的智能体。下面我们首先介绍一下整体功能。这里面主要功能：用户上传一个发票图片（目前我们这工作流支持6种发票），发票会经过文档提取器。文档提取器提取用户上传的发票传递给llm多模态模型，这个模型的作用是判断这发票是哪个类型的发票，接下来我们会根据条件分支来判断走哪个多模态发票提取的llm大语言模型。其中这6个大语言模型区别就在于他们的系统提示词不一样，主要就是每个发票票面信息不一样。

dify构建知识库rag

01-25

### 使用Dify构建知识库及RAG系统的流程 #### 1. 准备工作环境为了顺利搭建基于Dify平台的知识库及其对应的RAG系统，需先完成开发环境配置。确保安装了必要的依赖项和服务组件，特别是支持向量相似度搜索的Milvus数据库[^1]。 ```bash pip install pymilvus dify-client ``` #### 2. 数据预处理与导入收集并整理目标领域内的文档资料或其他形式的数据集，将其转换成适合存储于Milvus中的结构化表示——通常是高维特征向量。此过程可能涉及自然语言处理技术来提取文本特征或将图像转化为数值型描述符。 #### 3. 配置 Milvus 向量索引创建一个新的集合(collection)，定义好字段属性（如ID、嵌入维度等），接着批量插入之前准备好的数据记录到该集合内。合理设置参数可以优化查询效率和资源利用率。 ```python from milvus import Milvus, DataType client = Milvus() collection_name = "knowledge_base" fields = [ {"name": "id", "type": DataType.INT64}, {"name": "embedding", "type": DataType.FLOAT_VECTOR, "params": {"dim": 768}} ] if not client.has_collection(collection_name)[0]: client.create_collection( collection_name=collection_name, fields=fields ) ``` #### 4. 实现检索模块利用已建立起来的向量索引服务，在接收到用户提问时快速定位最接近的问题表述或相关内容片段。这里可以通过计算输入文本与其他已有条目之间的余弦距离实现高效匹配操作。 ```python def search_similar_questions(query_embedding): status, results = client.search( collection_name="knowledge_base", query_records=[query_embedding], top_k=5, params={"nprobe": 10} ) return [result.id for result in results[0]] ``` #### 5. 整合生成模型最后一步就是将上述获取到的结果传递给预先训练过的大型语言模型，让其根据上下文线索自动生成合理的回复内容。这样不仅能够提供精准的答案摘要，还能灵活应对各种类型的询问需求[^2]。 ```python import dify_client as dc dify_api_key = 'your_dify_api_key' generator = dc.TextGenerator(api_key=dify_api_key) context_ids = search_similar_questions(user_query_embedding) response_text = generator.generate(context_ids=context_ids, prompt=user_input) print(response_text) ```