一、前言
对很多人来说,将PDF转换为可编辑的文本是个刚需,却苦于没有简单的方法。发现 pdf 幻灯片,效果还不错。
传统的讲座通常伴随有很多pdf幻灯片。一般来说,想要对自己的讲座做笔记,需要从pdf复制、补充大量内容。
最近,来自 K1 Digital 的高级机器工程师 Lucas Soares 一直在尝试通过使用 CR(光学字符识别)自动 pdf 幻灯片,以便直接在 Markdown 文件中操作它们的内容,从而避免手动复制和粘贴 pdf 内容,实现这个过程的自动化。
图为项目作者卢卡斯·苏亚雷斯。
1.1、为什么不使用传统的pdf 转文本工具呢?
Lucas Soares 发现传统工具往往会带来更多的问题,需要花时间解决。他曾尝试使用传统的 Python 软件包,但遇到了很多问题(例如必须使用复杂的正则表达式模式解析最终输出等),因此决定尝试使用目标检测和 OCR 来解决。
二、实现过程
基本过程可分为以下几个步骤:
-
将 pdf 转换为图片;
-
检测和识别图像中的文本;
-
展示示例输出。
2.1、基于深度学习的 OCR 将 pdf 为文本
2.11、将 pdf 转换为图像
S