Linux下安装OCRFeeder

近日,薄荷开源网站长发现一份资料纸质版仍在,但电子文档遗失了。怎么办?难不成要全部重新打字输入?

忽然想起了 OCR。OCR 是光学字符识别的意思,通俗地讲,就是一种可以把图片中的文字内容读取出来的技术。这样可以免去手动打字输入的劳累之苦。

看来,问题也是前进的重要动力啊。在 Linux 下遇到了问题,逼着自己去想办法、找资料解决问题。这一过程也是学习和进步的过程。

著名的 OCR 软件,比如方正“尚书”系列,自然是没有 Linux 版的。Linux 下的 OCR 软件是自由软件,功能比商业作品稍弱,但也可以满足不高的需求。站长今天要介绍的 OCRFeeder 就是比较好用的 Linux OCR 软件之一。

在 Ubuntu 14.04/LinuxMint 17 以上的系统中,可以在“软件中心”或终端中直接安装 OCRFeeder。站长在 LinuxMint 18 中,使用终端安装 OCRFeeder 及其必须组件(中文识别引擎):
sudo apt install ocrfeeder tesseract-ocr-chi-*

安装完毕,OCRFeeder 自动在主菜单的 办公 子菜单中创建启动器。
01-linux-ocr-ocrfeeder

如果发现无法从菜单从启动 OCRFeeder,请用管理员权限编辑 OCRFeeder 的启动器,修改图中红线部分,把后面的 -i %f 参数去掉即可。
sudo vim /usr/share/applications/ocrfeeder.desktop
02-linux-ocr-ocrfeeder

修改保存后,即可顺利启动 OCRFeeder。如图所示,非常简洁,而且中文化也是完整的。
03-linux-ocr-ocrfeeder

在进行识别之前,先要设置一下识别引擎:OCRFeeder 菜单栏:工具--OCR引擎--编辑。注意图中所示红线部分,中文识别引擎格式必须是 zh:chi_sim。
04-linux-ocr-ocrfeeder

设置完毕,打开一张之前扫描的图片,准备实操检验一下 OCRFeeder 的识别能力。
05-linux-ocr-ocrfeeder

点击 OCRFeeder 工具栏的自动识别按钮,即可开始识别。识别速度不是很快,请耐心等待。

06-linux-ocr-ocrfeeder

识别完毕,点击左侧图片,右下角“文本”区域即可显示对应的识别出来的文本内容。
07-linux-ocr-ocrfeeder

我们把 OCRFeeder 右下角已经识别出来的文本内容复制出来,就达到 OCR 的目的了。就是这么简单。
08-linux-ocr-ocrfeeder

此外,OCRFeeder 还提供了扫描+识别一步到位。
09-linux-ocr-ocrfeeder

经过实测,扫描+识别都是没问题的,OCRFeeder 可以很好地让站长的 HP 一体机进行扫描操作,扫描完毕自动开始识别。
10-linux-ocr-ocrfeeder

一处错误:OCRFeeder“文件”菜单里的“导出PDF格式”应该是翻译错误,实际上该按钮是“导入PDF文档”。

在实测过程中,站长把一份 12 页的资料用“扫描易”扫描并保存为 PDF 文档,然后导入到 OCRFeeder 中进行识别,耗时数分钟,还算可以接受。虽然错别字不少,但也还算可以满足一般个人应用需求,至少不用痛苦地打那么多字了。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值