RAGFlow v0.22.0 发布:数据源同步、变量聚合、全新管理界面与多项重大更新

ModelEngine·创作计划征文活动 10w+人浏览 1.3k人参与

在这里插入图片描述

2025年11月12日,RAGFlow 正式发布 v0.22.0 版本。本次更新带来了大量功能增强、架构优化及重要修复,涵盖数据集管理、智能代理、解析管线、管理界面及模型支持等方面。同时,本版本在镜像发布策略和功能上也进行了重要调整。以下为详细更新内容:


一、重大变更

  • 从本版本起,仅提供精简版(不含嵌入模型)Docker 镜像,镜像标签中不再追加 -slim 后缀。

二、新功能

1. 数据集(Dataset)

  • 支持从五大在线数据源进行数据同步:AWS S3、Google Drive、Notion、Confluence、Discord。
  • 支持针对整个数据集或单个文档构建 RAPTOR。
  • 解析管线新增 Docling 文档解析器。
  • 新增管理 Web UI 仪表盘,用于图形化用户管理及服务状态监控。

2. 智能代理(Agent)

  • 支持结构化输出。
  • 检索组件支持元数据过滤。
  • 引入变量聚合器组件,可进行数据运算及会话变量定义。

三、功能改进

  • 在“等待响应”组件中可可视化前置组件输出。
  • 模型提供商页面全面改版。
  • 文档引擎 Infinity 升级至 v0.6.5。

四、新增模型

  • 新增 Kimi-K2-Thinking 模型。

五、新增代理模板

  • 新增交互式代理模板,可结合实时用户反馈动态优化输出。

六、更新详情(包含所有改进与修复)

  • 新增 Docling 解析器。
  • 测试文件迁移。
  • 停止发布完整镜像版本。
  • 修复 rag.nlp.search.Dealer.search() 方法中参数类型错误问题。
  • 英文同义词匹配优先于 WordNet 处理。
  • 修复数据集日志头像显示问题。
  • 补充文档参数说明。
  • 修复 Opendal 缺少租户 ID 问题。
  • 调整画布节点样式。
  • 移除 EditTag 中的 value 属性绑定。
  • 修复空数组传递时数据不更新的问题。
  • 增加 RAGFlow 镜像文档。
  • 修复 Gemini CV 模型聊天问题。
  • 更新 README。
  • 修复 DOCX 图片解析错误。
  • 新增 TCADP 解析器。
  • 首页及团队页样式调整,修复部分 bug。
  • Python API 传递 kwargs 支持。
  • MinerU 支持 VLM-Transformers 后端。
  • 底部工具栏样式调整。
  • MinerU 与 Docling 集成。
  • 修复图标替换相关问题。
  • 调整代理操作表单样式。
  • 更新 MinerU 设置指南。
  • 修复 Excel Chartsheet 解析与负索引问题。
  • 重命名 rmSpace 为 remove_redundant_spaces。
  • 新增 LLM 模型与 Token Pony 支持。
  • 知识库页面新增视频图标。
  • 修复 table_structure_recognizer 日志参数问题。
  • 测试配置自定义服务端口。
  • 修复 ragflow 镜像构建。
  • 修复日志记录问题。
  • 新增时间工具。
  • 调整代理操作表单工具样式。
  • 重构相似度滑块组件与数据集测试页样式。
  • Web 目录中新增 README。
  • 前端移除启动信息提示。
  • 新增 Admin UI 管理界面。
  • README 更新 Octoverse 信息。
  • 优化 AnthropicCV 总 Token 计数逻辑。
  • 更新分块检索分页测试用例。
  • 修复聊天会话完成问题。
  • 允许 Redis 无密码初始化。
  • 更新管理客户端默认端口。
  • 更新前端 README.md。
  • 为代理表单配置结构化数据输出。
  • 重命名文件避免包名冲突。
  • 移除 Youdao 与 BAAI 嵌入模型提供商。
  • 保障 Token 生成可预测性。
  • Docker 环境配置新增标准 HTTP/HTTPS 和 MCP 端口。
  • 支持引用代理操作符定义的结构化输出变量。
  • 新增代理模板德语翻译及标题优化。
  • Infinity 升级至 0.6.2,再升级至 0.6.5。
  • 修复 OpenSearch 检索错误。
  • 支持 MinerU API。
  • 管理界面新增位置规则。
  • 加强 Markdown 解析器分隔符处理。
  • 视频解析器遵循管道中选定的 VLM 配置。
  • 修复法律解析器问题。
  • 修复输入长度超出上下文长度问题。
  • 检查嵌入模型 API。
  • 后续操作符可引用代理操作符定义的结构化变量。
  • 修复管理界面多个问题。
  • 测试工作流中删除 Docker 镜像增加错误处理。
  • 查询变量下拉框样式调整。
  • 模型管理界面重构。
  • 优化 Rerank 模型 Token 计数逻辑。
  • 修复 MinerU 解析器 table_body 缺失问题。
  • jsonjoy-builder 目录文件改为小写。
  • 修复模型提供商页面样式与逻辑问题。
  • 修复修改操作符名称后画布节点未及时更新的问题。
  • 移除 get_lan_ip 并新增 misc_utils 工具。
  • TEI 自动截断输入。
  • 单例模式迁移至 common 目录。
  • 移除无用代码。
  • 项目基础路径函数迁移至 common 目录。
  • Token 相关功能迁移至 common。
  • 支持 docx/pdf 超链接解析,并修复默认解析器 toc 提取配置。
  • 修复代理 output_structure 问题。
  • 循环操作符支持嵌套数组变量作为查询变量。
  • 新增描述字段。
  • 管理界面新增白名单与角色管理。
  • HTTP 支持位置规则。
  • 修复 chunk.update API 位置更新问题。
  • 结构化输出变量支持点击操作。
  • 修复邮件解析器解码错误。
  • 函数迁移出 common.py。
  • 移除冗余单元测试。
  • 渲染阶段直接过滤结构化输出数据。
  • Base64 图片处理函数迁移至 common。
  • 引入 common/constants.py、common/config_utils.py。
  • 文件工具重构。
  • 修复 ollama describe_with_prompt 参数错误。
  • 修复 Tokenizer 缺失嵌入向量。
  • 元数据过滤函数新增变量支持。
  • 修复迭代内拖拽操作符未关联迭代的问题。
  • API与多数据源同步支持。
  • 知识检索组件元数据过滤函数支持变量。
  • 修复 MCP 认证头前端格式问题。
  • 日志工具重构。
  • 修复 Elasticsearch 连接硬编码问题。
  • Docker 移除过期 sandbox 配置。
  • 修复 meta_data_filter 参数错误。
  • 自定义超时迁移至 common 文件夹。
  • 修复 HTTP API 与 Web UI 创建数据集性能差异问题。
  • 新增数据操作节点及表单。
  • MinerU 支持 HTTP Client/Server。
  • 优化 Confluence 连接器。
  • 枚举类型迁移至 constants.py。
  • 表单支持数据操作符。
  • 链接连接器至知识库。
  • 常量迁移至 common。
  • 允许管理员限制用户可添加的 LLM 工厂。
  • 数据操作功能实现。
  • 修复 factories API 返回错误。
  • 管理界面微调。
  • 支持更多分块方法。
  • 全局变量迁移至 globals。
  • 修复多步执行转义问题。
  • 修复数字字符串转换缺失问题。
  • 启动数据同步服务。
  • Markdown 表格提取器修复。
  • 修复 get_allowed_llm_factories 返回类型错误。
  • 数据操作表单清理并传递至后端。
  • 修复 MCP 空授权字段处理问题。
  • 修复模板创建代理时的错误。
  • 数据操作更新修复。
  • 新增 Webhook 组件。
  • 功能:数据操作算子的值可以来自输入或变量引用。
  • 将 api.settings 移到 common.settings。
  • 修复:为日志添加字段。
  • 重构:移除 HuggingFace 仓库下载功能。
  • 功能:新增数据源功能。
  • 功能:代理算子和消息算子只能选择字符串变量作为提示词。
  • 功能:新增变量赋值节点。
  • 修复:修复 pdf_parser 在 rag/app/naive.py 中被忽略的问题。
  • 功能:GraphRAG 支持优雅取消。
  • 功能:新增变量聚合器节点。
  • 功能:调试同步数据。
  • 功能:RAPTOR 支持优雅取消。
  • 修复:不能添加更多模型的问题。
  • 管理:新增“显示版本”功能。
  • 在文档中新增 “SHOW VERSION” 使用说明。
  • 修复:优化数据源的一些功能问题。
  • 修复:为 UI 添加头像。
  • 修复:OpenSearch 检索无返回结果,并为 /retrieval 添加文档。
  • 功能:将数据源添加到管道日志中。
  • 功能:为变量聚合算子添加表单。
  • 修复:文档文件无法解析的问题。
  • 修复:Plain 解析器被跳过的问题。
  • 修复:为数据源日志添加提示和轮询功能。
  • 升级 infinity 到 0.6.4 版本。
  • 修复:添加 HuggingFace 模型下载功能。
  • 修复:不能将 RGBA 模式写为 JPEG。
  • 功能:变量聚合算子的输出基于配置生成。
  • 功能:为连接器添加自动解析功能。
  • 修复:Python API 的流式输出结构问题。
  • 功能:在变量聚合节点中显示已选择的变量。
  • 功能:添加变量聚合器。
  • 功能:新增 kimi-k2-thinking 和 moonshot-v1-vision-preview 模型。
  • 文档:优化 MinerU 部分的常见问题说明。
  • 修复:无法解析图片的问题。
  • 调整样式以匹配设计系统。
  • 重构:QWenCV 释放临时路径。
  • 修复:布局结构改为使用 main 标签。
  • 功能:新增全局变量功能。
  • 功能:任务监控。
  • 功能:数据操作算子的键名只能是数字、字母和下划线。
  • 修复:hierarchical_manager 中缺少文件格式支持。
  • 修复:移除 siliconflow API 中不支持的模型。
  • 修复:在知识库日志中添加下载统计。
  • 修复:一些 bug 问题。
  • 修复:general chunk 中解包值不足的问题。
  • 功能:操作符的查询变量可选择全局定义的对话变量。
  • 优化:不在 infinity 中选择向量。
  • 修复:优化 use_sql() 的提示和正则。
  • 修复(配置):为 infinity 映射添加 raptor_kwd 字段。
  • 功能:调整 mcp 和复选框的样式。
  • 功能:添加 Google Drive 连接器的初步支持。
  • 配置:为 LLM 供应商添加排名值并移除已弃用的 LLM。
  • 修复:bug 问题。
  • 修复:更新代理变量命名规则。
  • 修复:在知识库详情中添加 auto_parse。
  • 文档:添加管理 UI 用户指南。
  • 功能:添加任务执行器柱状图,添加系统版本字符串。
  • 功能:调用接口停止大模型输出。
  • 修复:优化模型提供方问题并改进一些功能。
  • 修复:waitForResponse 组件问题。
  • 功能:将新的 mcp 按钮放在行尾。
  • 功能:Google Drive 支持基于网页的凭证。
  • 功能:在 Agent 中添加检查取消的机制。
  • 功能:数据操作算子的输入参数只能是对象类型。
  • 修复:ollama 模型列表问题。
  • 修复:data_operations 输入返回错误。
  • 修复:更新环境以支持 PPTX,并更新 README 的版本变更说明。
  • 更新管理 UI 用户指南文档。
  • 文档:解析器行为变更说明。
  • 修复:bug 问题。
  • 修复:Confluence 因时区配置混乱导致无法检索新上传文件的问题。
  • 更新 llm_factories.json 中 LLM 工厂的排名。
  • 模板:新增用户交互代理模板。
  • 文档:更新最新更新记录。
  • 更新精简版中文 README.md。
  • 文档:移除精简版介绍。
  • 修复:连接器自动解析问题。
  • 回退先前改动。
  • 修复:GraphRAG 和 RAPTOR 任务不影响文档状态。
  • 修复:选择知识库变量时导致页面崩溃的问题。
  • 模板:更新代理模板标题。
  • 修复:bug 问题。
  • 文档:添加 v0.22.0 版本发布说明。
  • 升级 infinity 到 0.6.5 版本。
  • README:移除精简版镜像说明。
  • 更新文档。
  • 修复拼写错误。
  • 修复:RAPTOR 范围添加禁用逻辑。
  • 文档:更新 README 和文档中的版本引用到 v0.22.0。

七、总结

RAGFlow v0.22.0 提供了更强的 数据源集成能力、更灵活的 智能代理结构化处理与变量管理、可视化更完善的 管理后台 以及更加稳定高效的文档解析管道。特别是在数据同步、多数据源支持、结构化输出以及变量聚合方面的提升,使其在知识检索与智能问答系统的应用中更加高效、可扩展。

06-02
### RAGFlow Framework or Library in IT Context RAGFlow 是一种基于检索增强生成(Retrieval-Augmented Generation, RAG)理念的框架或工作流,旨在通过结合信息检索和生成模型来提升自然语言处理任务的效果。以下是关于 RAGFlow 的详细解析及其相关技术资料: #### 1. RAGFlow 的核心概念 RAGFlow 的设计目标是将传统的检索系统现代生成式模型相结合,从而在生成过程中引入外部知识[^1]。这种结合能够显著提高生成内容的相关性和准确性。具体来说,RAGFlow 包含以下关键组件: - **检索模块**:负责从大规模文档集合中提取用户查询最相关的片段。 - **生成模块**:利用检索到的信息作为上下文,生成高质量的回答或文本。 #### 2. RAGFlow 的实现方式 RAGFlow 的实现通常依赖于深度学习框架和开源工具库。例如,LangChain 提供了完整的 RAG 实现示例,其中包括: - 数据索引:使用向量数据库(如 FAISS 或 Pinecone)存储文档嵌入。 - 查询处理:将用户输入转化为嵌入向量,并检索最相似的文档片段。 - 文本生成:结合检索结果和预训练语言模型(如 GPT 或 BERT)生成最终输出。 #### 3. 相关技术栈 除了 LangChain,还有其他工具和技术可以支持 RAGFlow 的开发[^2]: - **Data Processing Libraries**: 工具如 `data-juicer` 和 `MinerU` 可以帮助清洗和准备数据集。 - **Document Parsing Tools**: 如 `PDF-Extract-Kit` 和 `Docling`,用于高效解析非结构化文档。 - **LLM Integration**: 利用 AutoGen 等框架实现多代理协作和 RAG 功能[^3]。 #### 4. 示例代码 以下是一个简单的 RAGFlow 实现示例,使用 Python 和 Hugging Face Transformers 库: ```python from transformers import pipeline # 初始化检索和生成模型 retriever = pipeline("feature-extraction") generator = pipeline("text-generation") def rag_flow(query, documents): # 检索相关文档 embeddings = retriever([query] + documents) scores = [sum(a * b for a, b in zip(embeddings[0], e)) for e in embeddings[1:]] top_doc = documents[scores.index(max(scores))] # 生成回答 context = f"Context: {top_doc}\nQuestion: {query}" answer = generator(context, max_length=100)[0]["generated_text"] return answer # 示例运行 documents = ["The capital of France is Paris.", "Germany is known for its engineering."] print(rag_flow("What is the capital of France?", documents)) ``` #### 5. RAGFlow 的优势挑战 - **优势**:通过引入外部知识,RAGFlow 能够生成更加准确和多样化的文本。 - **挑战**:需要高效的检索系统和高质量的数据源,同时对计算资源要求较高。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

福大大架构师每日一题

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值