基于MinerU的PDF解析API

致Great

已于 2024-09-07 11:51:05 修改

阅读量6.6k

点赞数 13

文章标签： pdf

于 2024-09-07 01:34:45 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanqianglifei/article/details/141979684

版权

基于MinerU的PDF解析API

- MinerU的GPU镜像构建
- 基于FastAPI的PDF解析接口

支持一键启动，已经打包到镜像中，自带模型权重，支持GPU推理加速，GPU速度相比CPU每页解析要快几十倍不等

主要功能

删除页眉、页脚、脚注、页码等元素，保持语义连贯
对多栏输出符合人类阅读顺序的文本
保留原文档的结构，包括标题、段落、列表等
提取图像、图片标题、表格、表格标题
自动识别文档中的公式并将公式转换成latex
自动识别文档中的表格并将表格转换成latex
乱码PDF自动检测并启用OCR
支持CPU和GPU环境
支持windows/linux/mac平台

具体原理

请见PDF-Extract-Kit:https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md
PDF文档中包含大量知识信息，然而提取高质量的PDF内容并非易事。为此，我们将PDF内容提取工作进行拆解：

布局检测：使用LayoutLMv3模型进行区域检测，如图像，表格,标题,文本等；
公式检测：使用YOLOv8进行公式检测，包含行内公式和行间公式；
公式识别：使用UniMERNet进行公式识别；
表格识别：使用StructEqTable进行表格识别；
光学字符识别：使用PaddleOCR进行文本识别；

镜像地址：

阿里云地址：docker pull registry.cn-beijing.aliyuncs.com/quincyqiang/mineru:0.2-models

dockerhub地址：docker pull quincyqiang/mineru:0.2-models

启动命令：

docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models

具体截图请见博客：https://blog.csdn.net/yanqianglifei/article/details/141979684

启动日志：

输入参数：

访问地址：

http://localhost:8888/docs

http://127.0.01:8888/docs

解析效果：

返回内容字段包括:dict_keys([‘layout’, ‘info’, ‘content’])
其中content是一个字典列表：

{
  'type': 'text', 
  'text': '现在我们知道：价值实体就是劳动；劳动量的尺度就是劳动持续时间。', 
  'page_idx': 5
}

博客等级

码龄10年

695
原创

3140
点赞

5460
收藏

2万+
粉丝

关注

私信

热门文章

分类专栏

RAG 78篇
大模型 92篇
Agent 10篇
强化学习 2篇
NLP 78篇
SD 1篇
Pytorch 3篇
比赛推送 6篇
实体识别 5篇
笔记 2篇
图神经网络 9篇
AI学习 7篇
php与Ajax 9篇
php学习 7篇
jquery学习 4篇
javascript 5篇
Qt 7篇
数据结构
2017-我的Java学习之路 1篇
Python 11篇
爬虫 4篇
机器学习 12篇
知识图谱 5篇
算法学习 13篇

最新评论

基于MinerU的PDF解析API
二十二394: 为什么直接网页测试就是用pdf_parse,然后Dify就是用file_parse然后导致失败呢？ INFO: 192.168.0.51:54635 - "POST /pdf_parse?parse_method=auto&is_json_md_dump=true HTTP/1.1" 200 OK INFO: 172.18.0.1:56616 - "POST /file_parse?parse_method=auto&return_layout=False&return_info=False&return_content_list=True&return_images=True HTTP/1.1" 404 Not Found
EasyDoc文档解析API，实测体验分享
Al6n Lee: 不错的工具，使用免费送的token，解析效果不错，相较之前使用的其他几款工具，这个工具感觉最佳
基于MinerU的PDF解析API
吴纯凌: "error": "Repo id must be in the form 'repo_name' or 'namespace/repo_name': '/opt/models/MFR/unimernet_hf_small_2503'. Use `repo_type` argument if needed."请问导入pdf后这个报错是为什么？
图神经网络14-TextGCN:基于图神经网络的文本分类
Thoughts...: 只要不泄露标签就没影响
基于MinerU的PDF解析API
HighColdMenGod: 您好我用的hpc上不能通过dockerfile拉取镜像，只能用enroot直接导入，请问现在最新版本的mineru是哪个版本，是0.3吗

最新文章

2025

目录

评论 18

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。