Dify进阶:知识库构建,MinerU安装完成,看看效果

最终效果展示

MinerU安装成功

上回说道,MinerU可以将pdf转化为Markdown,这对于大语言模型的知识库构建来说,十分重要。
由于我是windows电脑,使用的安装步骤是,直接从github下载MinerU的项目文件夹,在该文件夹启动终端。
并使用:

docker build -t mineru:latest .

构建镜像。

这个过程,在我这儿竟花费了足足一个半小时。害我几部短剧都看完了,也没等到最终的结果。
在这里插入图片描述
下一步:

docker run --rm -it --gpus=all mineru:latest /bin/bash

在这里插入图片描述
按照官方的教程,到这里就已经是成功了。

我们要上传个pdf到这个container里。
在docker desktop的界面上,找到这个container,可以拷贝它的ID。
在这里插入图片描述
使用docker cp命令向其中添加pdf。(注意docker cp命令是在container之外打的。)
在这里插入图片描述

先测试一下是否有什么异常(又回到了docker里面):

magic-pdf --help

在这里插入图片描述
执行转换命令:

magic-pdf -p test.pdf -o testdir -m auto

开始干活儿了。

在这里插入图片描述

6G现存也可以支持,开心啊!

在这里插入图片描述
最终结果在这儿可以看。
在这里插入图片描述
效果还可以啊!

### MinerU 快速 CPU 使用教程 #### 安装依赖库 为了能够在CPU上高效运行MinerU,需要先安装必要的依赖项。确保环境中已安装Python 3.x版本。 ```bash pip install -r requirements.txt ``` 这一步骤将自动下载并配置所有必需的第三方包[^1]。 #### 下载MinerU 可以从GitHub仓库获取最新版的MinerU源码: ```bash git clone https://github.com/opendatalab/MinerU.git cd MinerU ``` 此命令克隆官方存储库至本地文件夹,并切换工作目录到该项目根路径下。 #### 配置环境变量 对于仅使用CPU的情况,默认设置通常已经足够优化性能表现。不过仍建议检查`config.py`内的参数调整选项,特别是当处理大量文档时可能需要调节内存分配策略或其他资源管理设定[^3]。 #### 运行转换任务 启动MinerU执行PDF转Markdown的任务非常简单,只需一条指令即可完成整个过程: ```python from mineru import convert_pdf_to_markdown convert_pdf_to_markdown('example.pdf', 'output.md') ``` 上述脚本展示了如何调用API接口来实现自动化批量处理功能;其中第一个参数是要解析的目标PDF文件名,第二个则是期望保存的结果位置。 #### 处理多页复杂结构 针对含有较多图表、公式等内容丰富的学术论文类材料,可以通过指定额外参数增强识别精度: ```python options = { "optimize_for_academic": True, "preserve_layout": False } convert_pdf_to_markdown('complex_paper.pdf', 'formatted_output.md', options=options) ``` 这里通过传递字典形式的option对象给函数,告知程序特别关注某些方面的需求,比如是否保持原文档布局不变等特性控制。
评论 8
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

几道之旅

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值