利用Python实现PDF转文本，就是如此简单！

幸福清风

于 2021-10-08 15:03:58 发布

阅读量3.6k

点赞数 7

分类专栏：图像处理文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xun527/article/details/120651886

版权

一、前言

对很多人来说，将PDF转换为可编辑的文本是个刚需，却苦于没有简单的方法。发现 pdf 幻灯片，效果还不错。

传统的讲座通常伴随有很多pdf幻灯片。一般来说，想要对自己的讲座做笔记，需要从pdf复制、补充大量内容。

最近，来自 K1 Digital 的高级机器工程师 Lucas Soares 一直在尝试通过使用 CR（光学字符识别）自动 pdf 幻灯片，以便直接在 Markdown 文件中操作它们的内容，从而避免手动复制和粘贴 pdf 内容，实现这个过程的自动化。

图为项目作者卢卡斯·苏亚雷斯。

1.1、为什么不使用传统的pdf 转文本工具呢？

Lucas Soares 发现传统工具往往会带来更多的问题，需要花时间解决。他曾尝试使用传统的 Python 软件包，但遇到了很多问题（例如必须使用复杂的正则表达式模式解析最终输出等），因此决定尝试使用目标检测和 OCR 来解决。

二、实现过程

基本过程可分为以下几个步骤：

将 pdf 转换为图片；
检测和识别图像中的文本；
展示示例输出。

2.1、基于深度学习的 OCR 将 pdf 为文本

2.11、将 pdf 转换为图像

S

最低0.47元/天解锁文章

关注

7
点赞
踩
43

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

幸福清风

CSDN认证博客专家 CSDN认证企业博客

码龄7年

484: 原创

1万+: 周排名

1157: 总排名

192万+: 访问

: 等级

1万+: 积分

1736: 粉丝

1331: 获赞

270: 评论

4527: 收藏

私信

关注

热门文章

分类专栏

最新评论

总结mac下解决matplotlib中文显示问题的几种方法
简单的说: OK，已解决
火山方舟：Skylark-chat（豆包同款） API调用说明
空^o^白: maas-api.ml-platform-cn-beijing.volces.com这一部分要怎么修改啊，看不太懂
火山方舟：Skylark-chat（豆包同款） API调用说明
修片師禮: note: This error originates from a subprocess, and is likely not a problem with pip. error: metadata-generation-failed 请问，安装库装不上是什么问题？
火山方舟：Skylark-chat（豆包同款） API调用说明
修片師禮: File "<pip-setuptools-caller>", line 34, in <module> File "C:\Users\Administrator\AppData\Local\Temp\pip-install-izfcpqd9\pycryptodome_31cc551a8e2a4072892c30487775cefe\setup.py", line 457, in <module> set_compiler_options(package_root, ext_modules) File "C:\Users\Administrator\AppData\Local\Temp\pip-install-izfcpqd9\pycryptodome_31cc551a8e2a4072892c30487775cefe\compiler_opt.py", line 341, in set_compiler_options clang = compiler_is_clang() ^^^^^^^^^^^^^^^^^^^ File "C:\Users\Administrator\AppData\Local\Temp\pip-install-izfcpqd9\pycryptodome_31cc551a8e2a4072892c30487775cefe\compiler_opt.py", line 251, in compiler_is_clang return test_compilation(source, msg="clang") ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "C:\Users\Administrator\AppData\Local\Temp\pip-install-izfcpqd9\pycryptodome_31cc551a8e2a4072892c30487775cefe\compiler_opt.py", line 82, in test_compilation objects = compiler.
月之暗面：Moonshot AI接口总结
quit326575: 请教一个问题，文件上传到平台后会返回fileID，在对话过程中是否可以通过指定fileID的方式，自动将文件内容加载到上下文中，如果可行，请问如何组装messages

大家在看

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。