本次使用的是tesseract, 在github上拥有2w多颗星,
https://github.com/tesseract-ocr/tesseract
支持100多种语言,提供各种开发语言的调用接口,以及训练好的语种数据。
测试代码采用,java JNA + tess4j 方式
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
<project.reporting.outputEncoding>UTF-8</project.reporting.outputEncoding>
<java.version>1.8</java.version>
</properties>
<dependencies>
<dependency>
<groupId>net.java.dev.jna</groupId>
<artifactId>jna</artifactId>
<version>4.1.0</version>
</dependency>
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>3.4.0</version>