近日,薄荷开源网站长发现一份资料纸质版仍在,但电子文档遗失了。怎么办?难不成要全部重新打字输入?
忽然想起了 OCR。OCR 是光学字符识别的意思,通俗地讲,就是一种可以把图片中的文字内容读取出来的技术。这样可以免去手动打字输入的劳累之苦。
看来,问题也是前进的重要动力啊。在 Linux 下遇到了问题,逼着自己去想办法、找资料解决问题。这一过程也是学习和进步的过程。
著名的 OCR 软件,比如方正“尚书”系列,自然是没有 Linux 版的。Linux 下的 OCR 软件是自由软件,功能比商业作品稍弱,但也可以满足不高的需求。站长今天要介绍的 OCRFeeder 就是比较好用的 Linux OCR 软件之一。
在 Ubuntu 14.04/LinuxMint 17 以上的系统中,可以在“软件中心”或终端中直接安装 OCRFeeder。站长在 LinuxMint 18 中,使用终端安装 OCRFeeder 及其必须组件(中文识别引擎):
sudo apt install ocrfeeder tesseract-ocr-chi-*
安装完毕,OCRFeeder 自动在主菜单的 办公 子菜单中创建启动器。
如果发现无法从菜单从启动 OCRFeeder,请用管理员权限编辑 OCRFeeder 的启动器,修改图中红线部分,把后面的 -i %f 参数去掉即可。
sudo vim /usr/share/applications/ocrfeeder.desktop
修改保存后,即可顺利启动 OCRFeeder。如图所示,非常简洁,而且中文化也是完整的。
在进行识别之前,先要设置一下识别引擎:OCRFeeder 菜单栏:工具--OCR引擎--编辑。注意图中所示红线部分,中文识别引擎格式必须是 zh:chi_sim。
设置完毕,打开一张之前扫描的图片,准备实操检验一下 OCRFeeder 的识别能力。
点击 OCRFeeder 工具栏的自动识别按钮,即可开始识别。识别速度不是很快,请耐心等待。
识别完毕,点击左侧图片,右下角“文本”区域即可显示对应的识别出来的文本内容。
我们把 OCRFeeder 右下角已经识别出来的文本内容复制出来,就达到 OCR 的目的了。就是这么简单。
此外,OCRFeeder 还提供了扫描+识别一步到位。
经过实测,扫描+识别都是没问题的,OCRFeeder 可以很好地让站长的 HP 一体机进行扫描操作,扫描完毕自动开始识别。
一处错误:OCRFeeder“文件”菜单里的“导出PDF格式”应该是翻译错误,实际上该按钮是“导入PDF文档”。
在实测过程中,站长把一份 12 页的资料用“扫描易”扫描并保存为 PDF 文档,然后导入到 OCRFeeder 中进行识别,耗时数分钟,还算可以接受。虽然错别字不少,但也还算可以满足一般个人应用需求,至少不用痛苦地打那么多字了。