最近遇到个奇怪的需求,大哥要把几本实体书转为电子版,让做报价。一开始接到需求我很诧异,已出版的书籍按说都有电子版,网上下一个不就好了,报啥价。了解到书籍信息后我在国内外网站、网盘、某宝等找了一圈也没找到。所以决定拆书、拍照、OCR,尝试了TensorFlow、PyTorch、PaddlePaddle、Tesseract-OCR等等,准确率和速度都不理想。还是用现成应用好了。
准备:
1,下载安装ABBYY FineReader:
ABBYY FineReader中文网站-ABBYY FineReader PDF 15|OCR文字识别软件
ABBYY FineReader PDF 15 | Windows识别软件:识别文档,编辑PDF,转换文件
2,买高拍仪(比扫描仪快)
测试:
- 用手机拍了几页书,如下:
- 打开安装好的ABBYY FineReader;
- 转换文档,转为 Word;
- 选择拍的书页照片;
- 选择OCR语言,“简体中文和英语”;
- 开始转化。
结果如下:
虽然也不能达到100%准确,但总体准确率和效率还是可以接受的。