推荐 2 个 牛牛牛 的 PDF 开源神器!

2fadacaed698546287afa78a17645e8b.png

推荐两个在 GitHub 上都斩获 12k+ 星星的 PDF 神器:OCRmyPDF 可让你的 PDF 扫描件变得可搜索;Marker 以高准确性快速将 PDF 文档转换为 Markdown 格式


01

让你的 PDF 扫描件变得可搜索

在数字化时代,我们经常需要处理扫描的PDF文件,但这些文件往往不能被搜索引擎索引,给信息检索带来不便。

OCRmyPDF 这个精心打造的开源项目,已经解决了这一问题。它通过在扫描的 PDF 文件中添加 OCR 文本层,让这些 PDF 扫码件变得可搜索,极大地提升了工作效率!

354959b5df94efde1b9a56a3d9e3dcc8.png

有啥牛的?

① 跨平台支持:无论是 Windows、macOS 还是 Linux,OCRmyPDF 都能完美运行,满足不同用户的需求。

② 易于使用:用户可以通过命令行界面轻松地将扫描的 PDF 文件转换为包含 OCR 文本层的 PDF。

③ 高度可定制:支持多种语言的 OCR 引擎,用户可以根据自己的需求选择合适的 OCR 引擎。

3ef162c2de58b6158be4263fe70c0ca8.png

OCRmyPDF 不仅仅是一个工具,还是提高工作效率的小助手。无论是学术研究、商务文档处理还是个人资料管理,OCRmyPDF 都能助你一臂之力。

开源地址:https://github.com/ocrmypdf/ocrmypdf

快来体验它的强大功能,让你的 PDF 文件活起来!

02

让你的 PDF 一键转换成 Markdown

Marker,由 Vik Paruchuri 精心打造的开源工具,它能以高准确性快速将 PDF 文档转换为 Markdown 格式,为那些需要在 Markdown 和 PDF 之间转换内容的用户提供了一个强大的工具。

Marker 是一个命令行工具,使用 Python 编写,转换成 Markdown 提高了文本的可读性和可编辑性,同时为那些需要在不同平台和格式之间迁移内容的用户提供了极大的便利。

这个开源的命令行工具,可以在多种操作系统上运行,包括 Windows、macOS 和 Linux。已经在 GitHub上获得了13k 的 Star。

开源地址: https://github.com/VikParuchuri

准确率如何?

不管是响应时间还是准确率,Marker 都表现的不错:

f56041da4027de7b454aee113cb34685.png

看看效果?

找了一个 PDF 文件:

87348f248facac7db9914bb02ae2a188.png

讲上面这个 PDF 转换成 Markdown 效果:

f072275fd79c5e652effd148f223b5ba.png

简单部署?

你可以安装如下的方式去安装使用这一款 PDF 转换神器:

# 安装Marker
pip install marker

# 转换PDF到Markdown
marker input.pdf output.md

推荐阅读

1. GitHub 上有什么好玩的项目?

2. 推荐 5 个本周很火的 GitHub 项目

3. 推荐 5 个近期火火火的 GitHub 项目

4.  推荐 5 个令人惊艳的 GitHub 项目

01cd0a6cce5c5ec8e2710c253afdec31.png

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值