整合多模态文档解析与DeepResearch的框架:Doc-Researcher思路

整体偏向工程实现,Doc-Researcher从名字可以看出,首先这个框架需要进行文档解析提取文档的图文多模态元素,文档解析相关技术链路《文档智能》。其次是多模态深度研究(通过迭代分解问题、积累证据、验证信息,实现多文档、多跳、多轮的深度推理。)和衔接两者的多模态检索架构。

Doc-ReseaRcHeR 架构

多模态文档深度研究的典型应用场景。用户在多轮对话的上下文中提出一个需要多跳推理的问题,其中真实证据跨越多个文档和模态。

下面简单看下思路。

方法架构

Doc-Researcher 架构

整体架构分三个模块:文档解析、多模态检索和多模态deepResearch。

模块1:深度多模态文档解析

与多数的《RAG》知识库构建组件相同,都需要对文档进行深度解析,尽可能的保留文档的所有元素信息。该框架使用的是MinerU解析文档中的(文本/表格/图表/公式)、边界框坐标(精确到页面像素,用于后续定位引用)等信息。表格/图表:用Qwen2.5-VL生成两类描述:(1)粗粒度摘要(如“2023年A股市值Top5行业分布表”):用于快速匹配查询意图;(2)细粒度描述(如“第一列是行业名称,第二列是市值占比,金融行业占比28%”):用于精确证据提取;

多粒度分块策略

单一元素(如孤立表格)缺乏上下文,需通过布局分析模型合并生成多粒度单元。定义了4个核心粒度级别 G = { chunk, page, full, summary } G = \{\text{chunk, page, full, summary}\} G={chunk, page, full, summary}

  • Chunk(块) : 在章节边界内合并文本/表格/图表元素,限制最大长度(避免跨章节语义断裂),保留每个元素的边界框坐标
  • Page(页面) :两种形式:
    1. 合并单页所有元素(含文本+转录后的表格/公式);
    2. 原始页面截图(用于纯视觉检索)
  • Full(全文) : 合并文档所有元素,形成完整结构化文本(含章节层级、公式LaTeX、表格描述)
  • Summary(摘要) : 用LLM对“Full”粒度文本生成摘要,突出核心结论/结构

模块2:多模态检索架构

评估了5种文本检索器

三种检索范式的设计与对比:

  • 纯视觉检索 :以“Page”粒度的原始截图为检索单元,用视觉模型(如Jina-embedding-v4)直接编码截图为向量,匹配查询的视觉特征(需将查询转视觉向量或用跨模态模型匹配)
  • 纯文本检索 :以“Chunk/Page/Full/Summary”粒度的文本转录结果为单元(含OCR文本、表格/图表描述、公式LaTeX),用文本嵌入模型(如BGE-M3)编码匹配
  • 混合检索 :结合两种范式:(1)文本检索器编码“Chunk/Full/Summary”的文本;(2)视觉检索器编码“Page/Chunk”的截图;(3)融合两类检索结果(如加权排序)

模块3:多模态Deep Research

通过多智能体协作的迭代流程,模拟人类“分解问题→搜索证据→验证补充→合成结论”的研究过程。

协作流程

如上图,系统包含4个Agent:

1. 规划器(Planner)

输入:用户查询、对话历史、文档集合
输出:1. 过滤后相关文档子集(缩小搜索范围);2. 最优检索粒度(如摘要 / 块 / 页面);3. 细化子查询(分解复杂问题)

2. Searcher+ Refiner

核心是通过多轮搜索-精炼循环,逐步补充高质量证据,避免单轮检索的“证据不足”或“噪声过多”问题:

  • Searcher:证据初筛,基于多模态检索架构(文本 / 视觉 / 混合),获取初始多模态证据(文本块、表格截图、图表等)
  • Refiner:证据提纯,1. 去重(删除重复证据);2. 相关性过滤(剔除无关内容);3. 输出精炼后高质量证据
3. Reporter

输入:用户查询、累计精炼证据、解析阶段记录的引用元数据(证据对应的文档ID、页面ID、边界框坐标);
输出多模态报告,特点:

  1. 自动插入证据中的表格/图表截图(而非仅文本描述),并搭配解释
  2. 每个结论后标注证据来源,用户可直接定位到原始文档位置验证,解决LLM生成“幻觉”问题;
  3. 根据查询类型生成对应结构

实验性能

参考文献:Doc-Researcher: A Unified System for Multimodal Document
Parsing and Deep Research,https://arxiv.org/pdf/2510.21603v1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值