Java使用Tesseract-OCR文字识别（Java调用tess4j提取图片中文、英文、数字信息）

最新推荐文章于 2025-03-17 20:50:20 发布

落丶寞

最新推荐文章于 2025-03-17 20:50:20 发布

阅读量1.3w

点赞数 5

分类专栏： Java 文章标签： Java Tesseract-OCR tess4j

本文链接：https://blog.csdn.net/weixin_44341110/article/details/100738025

版权

Java 专栏收录该内容

11 篇文章

订阅专栏

本文介绍如何使用tess4j库进行图片文字识别，包括环境搭建、依赖配置及代码实现，对比数字、英文和中文识别效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

由于需要在应用中将原本的身份认证手动提交身份信息改为用户上传身份证照自动提取信息，提升用户体验，第一时间想到阿里云等平台的收费服务及开源技术Tesseract-OCR(Tesseract-OCR提供了全套训练工具，可降低开发成本，需要下载客户端使用)，同时提供了tess4j（tess4j是Java对Tesseract-OCR的封装，使Java应用程序可以调用tess4j API使用Tesseract-OCR），这里先体验一下开源技术tess4j。

一、tess4j实现提取图片信息

1、创建一个maven普通Java项目，标记部分为后面添加。

2、添加tess4j相关依赖。如果非maven工程需下载源码包，将源码包下的lib文件夹拷贝至项目下，下一步的图片中显示了源码包目录结构

        <!--     tess4j相关依赖   -->
        <dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>3.2.1</version>
        </dependency>

3、下载源码包

tess4j源码包:https://sourceforge.net/projects/tess4j/

中文库地址：https://github.com/tesseract-ocr/tessdata/blob/master/chi_sim.traineddata

其他语言包地址：https://github.com/tesseract-ocr/tessdata

3.1、下载tess4j源码包并解压

3.2、将tess4j里的文件夹tessdata拷贝至项目根目录，与src同级。

3.3、tessdata默认只有英文库eng.traineddata，识别中文需要下载中文包并将中文包拷贝至tessdata里eng.traineddata同级目录下。

4、在项目中创建图片资源目录，存放本地图片供识别使用，这里在根目录创建并存入几张中、英文、数字图片。

5、编写测试类。


import java.io.File;
import net.sourceforge.tess4j.ITesseract;
import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

/**
 *  tess4j测试类
 */

public class Tess4jDemo {
    public static void main(String []args) throws TesseractException{

                //创建ITesseract接口的实现实例对象
                ITesseract iTesseract = new Tesseract();
                //设置tessdata训练库语言包地址，项目根目录下为默认地址可不设置
//                iTesseract.setDatapath("E:\IDEA\IntelliJ IDEA 2019.1.3\IdeaProjects\Tess4jDemo\tessdata");
                //默认识别英文
                //如果需要识别英文之外的语种，需要指定识别语种，并且需要将对应的语言包放进项目中
//                iTesseract.setLanguage("chi_sim");

                // 指定本地图片
                File img = new File("E:\\IDEA\\IntelliJ IDEA 2019.1.3\\IdeaProjects\\Tess4jDemo\\Tess4jImages\\num.jpg");
                //开始识别时间
                long startTime = System.currentTimeMillis();
                //识别结果
                String ocrResult = iTesseract.doOCR(img);
                // 输出识别结果
                System.out.println("耗时：" + (System.currentTimeMillis() - startTime) + "ms");
                System.out.println("识别结果: \n" + ocrResult );

    }
}

6、运行结果

6.1、数字图片识别

6.1.1