RAGFlow v0.22.0 发布：数据源同步、变量聚合、全新管理界面与多项重大更新

最新推荐文章于 2025-11-15 14:19:54 发布

原创最新推荐文章于 2025-11-15 14:19:54 发布 · 1.1k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#ragflow

文心一言vschatgpt 专栏收录该内容

813 篇文章

订阅专栏

ModelEngine·创作计划征文活动 10w+人浏览 1.3k人参与

在这里插入图片描述

2025年11月12日，RAGFlow 正式发布 v0.22.0 版本。本次更新带来了大量功能增强、架构优化及重要修复，涵盖数据集管理、智能代理、解析管线、管理界面及模型支持等方面。同时，本版本在镜像发布策略和功能上也进行了重要调整。以下为详细更新内容：

一、重大变更

从本版本起，仅提供精简版（不含嵌入模型）Docker 镜像，镜像标签中不再追加 -slim 后缀。

二、新功能

1. 数据集（Dataset）

支持从五大在线数据源进行数据同步：AWS S3、Google Drive、Notion、Confluence、Discord。
支持针对整个数据集或单个文档构建 RAPTOR。
解析管线新增 Docling 文档解析器。
新增管理 Web UI 仪表盘，用于图形化用户管理及服务状态监控。

2. 智能代理（Agent）

支持结构化输出。
检索组件支持元数据过滤。
引入变量聚合器组件，可进行数据运算及会话变量定义。

三、功能改进

在“等待响应”组件中可可视化前置组件输出。
模型提供商页面全面改版。
文档引擎 Infinity 升级至 v0.6.5。

四、新增模型

新增 Kimi-K2-Thinking 模型。

五、新增代理模板

新增交互式代理模板，可结合实时用户反馈动态优化输出。

六、更新详情（包含所有改进与修复）

新增 Docling 解析器。
测试文件迁移。
停止发布完整镜像版本。
修复 rag.nlp.search.Dealer.search() 方法中参数类型错误问题。
英文同义词匹配优先于 WordNet 处理。
修复数据集日志头像显示问题。
补充文档参数说明。
修复 Opendal 缺少租户 ID 问题。
调整画布节点样式。
移除 EditTag 中的 value 属性绑定。
修复空数组传递时数据不更新的问题。
增加 RAGFlow 镜像文档。
修复 Gemini CV 模型聊天问题。
更新 README。
修复 DOCX 图片解析错误。
新增 TCADP 解析器。
首页及团队页样式调整，修复部分 bug。
Python API 传递 kwargs 支持。
MinerU 支持 VLM-Transformers 后端。
底部工具栏样式调整。
MinerU 与 Docling 集成。
修复图标替换相关问题。
调整代理操作表单样式。
更新 MinerU 设置指南。
修复 Excel Chartsheet 解析与负索引问题。
重命名 rmSpace 为 remove_redundant_spaces。
新增 LLM 模型与 Token Pony 支持。
知识库页面新增视频图标。
修复 table_structure_recognizer 日志参数问题。
测试配置自定义服务端口。
修复 ragflow 镜像构建。
修复日志记录问题。
新增时间工具。
调整代理操作表单工具样式。
重构相似度滑块组件与数据集测试页样式。
Web 目录中新增 README。
前端移除启动信息提示。
新增 Admin UI 管理界面。
README 更新 Octoverse 信息。
优化 AnthropicCV 总 Token 计数逻辑。
更新分块检索分页测试用例。
修复聊天会话完成问题。
允许 Redis 无密码初始化。
更新管理客户端默认端口。
更新前端 README.md。
为代理表单配置结构化数据输出。
重命名文件避免包名冲突。
移除 Youdao 与 BAAI 嵌入模型提供商。
保障 Token 生成可预测性。
Docker 环境配置新增标准 HTTP/HTTPS 和 MCP 端口。
支持引用代理操作符定义的结构化输出变量。
新增代理模板德语翻译及标题优化。
Infinity 升级至 0.6.2，再升级至 0.6.5。
修复 OpenSearch 检索错误。
支持 MinerU API。
管理界面新增位置规则。
加强 Markdown 解析器分隔符处理。
视频解析器遵循管道中选定的 VLM 配置。
修复法律解析器问题。
修复输入长度超出上下文长度问题。
检查嵌入模型 API。
后续操作符可引用代理操作符定义的结构化变量。
修复管理界面多个问题。
测试工作流中删除 Docker 镜像增加错误处理。
查询变量下拉框样式调整。
模型管理界面重构。
优化 Rerank 模型 Token 计数逻辑。
修复 MinerU 解析器 table_body 缺失问题。
jsonjoy-builder 目录文件改为小写。
修复模型提供商页面样式与逻辑问题。
修复修改操作符名称后画布节点未及时更新的问题。
移除 get_lan_ip 并新增 misc_utils 工具。
TEI 自动截断输入。
单例模式迁移至 common 目录。
移除无用代码。
项目基础路径函数迁移至 common 目录。
Token 相关功能迁移至 common。
支持 docx/pdf 超链接解析，并修复默认解析器 toc 提取配置。
修复代理 output_structure 问题。
循环操作符支持嵌套数组变量作为查询变量。
新增描述字段。
管理界面新增白名单与角色管理。
HTTP 支持位置规则。
修复 chunk.update API 位置更新问题。
结构化输出变量支持点击操作。
修复邮件解析器解码错误。
函数迁移出 common.py。
移除冗余单元测试。
渲染阶段直接过滤结构化输出数据。
Base64 图片处理函数迁移至 common。
引入 common/constants.py、common/config_utils.py。
文件工具重构。
修复 ollama describe_with_prompt 参数错误。
修复 Tokenizer 缺失嵌入向量。
元数据过滤函数新增变量支持。
修复迭代内拖拽操作符未关联迭代的问题。
API与多数据源同步支持。
知识检索组件元数据过滤函数支持变量。
修复 MCP 认证头前端格式问题。
日志工具重构。
修复 Elasticsearch 连接硬编码问题。
Docker 移除过期 sandbox 配置。
修复 meta_data_filter 参数错误。
自定义超时迁移至 common 文件夹。
修复 HTTP API 与 Web UI 创建数据集性能差异问题。
新增数据操作节点及表单。
MinerU 支持 HTTP Client/Server。
优化 Confluence 连接器。
枚举类型迁移至 constants.py。
表单支持数据操作符。
链接连接器至知识库。
常量迁移至 common。
允许管理员限制用户可添加的 LLM 工厂。
数据操作功能实现。
修复 factories API 返回错误。
管理界面微调。
支持更多分块方法。
全局变量迁移至 globals。
修复多步执行转义问题。
修复数字字符串转换缺失问题。
启动数据同步服务。
Markdown 表格提取器修复。
修复 get_allowed_llm_factories 返回类型错误。
数据操作表单清理并传递至后端。
修复 MCP 空授权字段处理问题。
修复模板创建代理时的错误。
数据操作更新修复。
新增 Webhook 组件。
功能：数据操作算子的值可以来自输入或变量引用。
将 api.settings 移到 common.settings。
修复：为日志添加字段。
重构：移除 HuggingFace 仓库下载功能。
功能：新增数据源功能。
功能：代理算子和消息算子只能选择字符串变量作为提示词。
功能：新增变量赋值节点。
修复：修复 pdf_parser 在 rag/app/naive.py 中被忽略的问题。
功能：GraphRAG 支持优雅取消。
功能：新增变量聚合器节点。
功能：调试同步数据。
功能：RAPTOR 支持优雅取消。
修复：不能添加更多模型的问题。
管理：新增“显示版本”功能。
在文档中新增 “SHOW VERSION” 使用说明。
修复：优化数据源的一些功能问题。
修复：为 UI 添加头像。
修复：OpenSearch 检索无返回结果，并为 /retrieval 添加文档。
功能：将数据源添加到管道日志中。
功能：为变量聚合算子添加表单。
修复：文档文件无法解析的问题。
修复：Plain 解析器被跳过的问题。
修复：为数据源日志添加提示和轮询功能。
升级 infinity 到 0.6.4 版本。
修复：添加 HuggingFace 模型下载功能。
修复：不能将 RGBA 模式写为 JPEG。
功能：变量聚合算子的输出基于配置生成。
功能：为连接器添加自动解析功能。
修复：Python API 的流式输出结构问题。
功能：在变量聚合节点中显示已选择的变量。
功能：添加变量聚合器。
功能：新增 kimi-k2-thinking 和 moonshot-v1-vision-preview 模型。
文档：优化 MinerU 部分的常见问题说明。
修复：无法解析图片的问题。
调整样式以匹配设计系统。
重构：QWenCV 释放临时路径。
修复：布局结构改为使用 main 标签。
功能：新增全局变量功能。
功能：任务监控。
功能：数据操作算子的键名只能是数字、字母和下划线。
修复：hierarchical_manager 中缺少文件格式支持。
修复：移除 siliconflow API 中不支持的模型。
修复：在知识库日志中添加下载统计。
修复：一些 bug 问题。
修复：general chunk 中解包值不足的问题。
功能：操作符的查询变量可选择全局定义的对话变量。
优化：不在 infinity 中选择向量。
修复：优化 use_sql() 的提示和正则。
修复（配置）：为 infinity 映射添加 raptor_kwd 字段。
功能：调整 mcp 和复选框的样式。
功能：添加 Google Drive 连接器的初步支持。
配置：为 LLM 供应商添加排名值并移除已弃用的 LLM。
修复：bug 问题。
修复：更新代理变量命名规则。
修复：在知识库详情中添加 auto_parse。
文档：添加管理 UI 用户指南。
功能：添加任务执行器柱状图，添加系统版本字符串。
功能：调用接口停止大模型输出。
修复：优化模型提供方问题并改进一些功能。
修复：waitForResponse 组件问题。
功能：将新的 mcp 按钮放在行尾。
功能：Google Drive 支持基于网页的凭证。
功能：在 Agent 中添加检查取消的机制。
功能：数据操作算子的输入参数只能是对象类型。
修复：ollama 模型列表问题。
修复：data_operations 输入返回错误。
修复：更新环境以支持 PPTX，并更新 README 的版本变更说明。
更新管理 UI 用户指南文档。
文档：解析器行为变更说明。
修复：bug 问题。
修复：Confluence 因时区配置混乱导致无法检索新上传文件的问题。
更新 llm_factories.json 中 LLM 工厂的排名。
模板：新增用户交互代理模板。
文档：更新最新更新记录。
更新精简版中文 README.md。
文档：移除精简版介绍。
修复：连接器自动解析问题。
回退先前改动。
修复：GraphRAG 和 RAPTOR 任务不影响文档状态。
修复：选择知识库变量时导致页面崩溃的问题。
模板：更新代理模板标题。
修复：bug 问题。
文档：添加 v0.22.0 版本发布说明。
升级 infinity 到 0.6.5 版本。
README：移除精简版镜像说明。
更新文档。
修复拼写错误。
修复：RAPTOR 范围添加禁用逻辑。
文档：更新 README 和文档中的版本引用到 v0.22.0。

七、总结

RAGFlow v0.22.0 提供了更强的数据源集成能力、更灵活的智能代理结构化处理与变量管理、可视化更完善的管理后台以及更加稳定高效的文档解析管道。特别是在数据同步、多数据源支持、结构化输出以及变量聚合方面的提升，使其在知识检索与智能问答系统的应用中更加高效、可扩展。