一、摘要
论文提出MinerU一种基于多模块解析策略的开源文档内容提取工具,旨在解决现有方法在多样化文档(如学术论文、教科书、财务报表等)中因复杂布局、公式、表格等元素导致的提取精度不足问题。
核心贡献
-
创新框架:
- 结合PDF-Extract-Kit模型库(布局检测、公式识别、表格解析等)与精细化预处理/后处理规则,支持中英文文档的文本、公式、表格等多元素精准提取。
- 输出为Markdown或JSON格式,适配下游任务需求。
-
技术优势:
- 布局泛化能力:通过多样化数据训练,支持单双栏、竖排文本等11类复杂文档(图2)。
- 噪声过滤:自动剔除页眉、页脚等无关区域。
- 高效推理:基于规则与模型的协同优化,显著降低端到端MLLM的高计算成本。
-
实验结果:
- 布局检测mAP达77.6%(学术论文)与67.9%(教科书),公式识别指标(CDM=0.968)媲美商业软件MathPix,全面超越现有开源模型(表3-5)。
二、背景介绍
随着大语言模型(LLMs)和检索增强生成(RAG)技术的快速发展,文档内容提取逐渐成为推动人工智能落地的核心任务之一。然而,现有技术在处理多样化、复杂结构的文档时仍面临显著挑战。本文的Introduction部分从技术需求、现有方法局限性、创新解决方案三个维度展开论述,系统性地阐释了MinerU的设计动机与核心价值。
2.1、技术背景:LLMs与RAG驱动的高质量文档需求
-
LLMs的数据依赖与瓶颈
- ChatGPT的启示:2022年底ChatGPT的发布标志着LLMs进入大规模应用阶段,其成功依赖于海量高质量训练数据。然而,随着模型规模扩大,互联网网页数据的质量与多样性逐渐成为瓶颈。
- 文档数据的价值:学术论文、教科书、研究报告等文档蕴含结构化知识,是LLMs进阶训练的关键资源。例如,数学公式、表格数据、跨页段落等内容的精准提取,直接影响模型在科学、金融等领域的推理能力。
-
RAG技术的兴起与挑战
- 检索增强生成(RAG):2023年,RAG技术通过动态检索外部知识增强LLMs的生成效果,成为行业热点。其核心在于从文档中快速提取结构化信息,构建实时更新的知识库。
- 现实需求:企业级场景(如法律合同解析、医疗报告生成)要求工具能够处理多样化文档类型(单栏/双栏、扫描/文本PDF、竖排古籍等),并保证高精度、低成本、强泛化性。
2.2、现有技术局限性分析
论文从技术原理、适用场景、核心缺陷三个层面对四种主流方法进行了系统性对比,揭示了当前工具链的共性痛点:
1. OCR文本提取
- 技术原理:直接对文档图像进行光学字符识别(OCR),依赖模型(如Tesseract、PaddleOCR)逐像素解析文本。
- 局限性:
- 噪声敏感:图像、表格、公式等非文本区域易被误识别为乱码(如将公式“(E=mc^2)”解析为“E_me2”)。
- 结构丢失:无法区分标题、正文、脚注,导致输出为无序文本流,难以适配下游任务。
2. 库解析(如PyMuPDF)
- 技术原理:解析PDF内部文本流(适用于非扫描文档),跳过OCR直接提取字符与坐标。
- 局限性:
- 元素缺失:忽略公式、表格、图像等非文本对象,仅输出纯文字内容。
- 格式混乱:跨栏、跨页文本的阅读顺序错误(如将双栏论文按“Z”形拼接),导致语义断裂。