1、启动界面
2、选择图片以及图片展示 便于核对识别内容是否正确
3、识别图片 把识别内容 动态加载到识别内容展示框 支持二次编辑
从效果来看,识别字母和数字的效果非常好,准确率90%以上,但是中文汉字识别率就惨不忍睹,需要自己进行训练
maven引入
<dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>4.5.2</version> </dependency>
核心代码:
public class OcrCore { // 语言库位置(修改为跟自己语言库文件夹的路径) private static String lagnguagePath = "D:\\ocr\\tessdata"; public static String imageOcr(File file){ ITesseract instance = new Tesseract(); //设置训练库的位置 instance.setDatapath(lagnguagePath); //chi_sim:简体中文eng 根据需求选择语言库 instance.setLanguage("eng"); String result = null; try { long startTime = System.currentTimeMillis(); result = instance.doOCR(file); long endTime = System.currentTimeMillis(); System.out.println("Time is:" + (endTime - startTime) + "毫秒"); } catch (TesseractException e) { e.printStackTrace(); } return result; } }