离线OCR中英文图片识别

WebOcr是一个基于GoogleTesseract4的OCR项目,支持中文识别和高识别率。它提供了HTTP接口和Docker部署选项,允许并发请求,并可通过jTessBoxEditor进行模型训练以提升识别准确率。最低配置需求为1核CPU和2GB内存。
摘要由CSDN通过智能技术生成

webOcr

WebOcr,基于Google Tessract4机器学习构建中英文离线Ocr项目。 在其基础上提供了http调用的接口,便于你在其他的项目中调用。 并且提供了Docker,便于部署。

特性

中文识别

快速高识别率

模型训练

通过jTessBoxEditor编辑器,进行模型样本训练,提高识别率

并发请求

由于模型本身不支持并发,但通过golang协程的方式,具体并发数取决于机器的配置。

环境

✔ Python 3.6+
✔ Ubuntu 16.04
✔ ️Ubuntu 18.04
✔ CentOS 7
✔ Docker
✔ Windows

最低配置要求

CPU: 1核
内存: 2G
SWAP: 2G

安装部署

##安装
QQ:2192200
EMAIL:webw3cs#gmail.com

##运行
###方法1:docker模式

docker run -it -d --restart=always -p 8084:8081 ocr:20201230 /www/ocr -c /www/app.toml &

###方法2:宿主机执行模式

docker run --rm -v ${PWD}:/data 53349c6654c6 tesseract /data/WechatIMG315.jpeg /data/gysl -l chi_sim --dpi 300

###方法3:cli命令模式

tesseract /11.jpeg out -l chi_sim --dpi 300

示例

curl -vv -X POST -F file=@test.jpeg "http://81.70.50.12:8084/ocr/upload"
{
    "errno": 0,
    "errmsg": "",
    "data":"我们可以在Confluence上面进行创建  分享和讨论文件  想法,备忘录,规格,实体模型,图表和项目  通过Confluence平台进行小组工作的协同和知识分享。"
}

原理

历史

Tesseract项目最初由惠普实验室支持,1996年被移植到Windows上,1998年进行了C++化。在2005年Tesseract由惠普公司宣布开源。2006年到现在,都由Google公司开发。

特性

目前,Tesseract可以识别超过100种语言。也可以用来训练其它的语言。
源码包提供了一个OCR的引擎——libtesseract以及一个命令行程序——tesseract。
Tesseract支持多种输出格式,如:普通文本、html、pdf等。

升级

Tesseract 该软件包包含一个OCR引擎 - libtesseract和一个命令行程序 - tesseract。 Tesseract 4增加了一个基于OCR引擎的新神经网络(LSTM),该引擎专注于线路识别,但仍然支持Tesseract 3的传统Tesseract OCR引擎,该引擎通过识别字符模式来工作。通过使用Legacy OCR Engine模式(–oem 0)启用与Tesseract 3的兼容性。它还需要训练有素的数据文件,这些文件支持传统引擎。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值