图片文字识别
什么是OCR?
OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程

管理敏感词和图片文字识别集成到项目——Tess4j
导入依赖
<dependency>
<groupId>net.sourceforge.tess4j</groupId>
<artifactId>tess4j</artifactId>
<version>4.1.1</version>
</dependency>
工具类
@Getter
@Setter
@Component
@ConfigurationProperties(prefix = "tess4j")
public class Tess4jClient {
private String dataPath;
private String language;
public String doOCR(BufferedImage image) throws TesseractException {
//创建Tesseract对象
ITesseract tesseract = new Tesseract();
//设置字体库路径
tesseract.setDatapath(dataPath);
//中文识别
tesseract.setLanguage(language);
//执行ocr识别
String result = tesseract.doOCR(image);
//替换回车和tal键 使结果为一行
result = result.replaceAll("\\r|\\n", "-").replaceAll(" ", "");
return result;
}
}
spring.factories配置中添加该类

这样其他服务在导入该模块以来的时候就可以自动注入了
你在哪个服务中使用,就在配置中添加两个属性
tess4j:
data-path: D:\workspace\tessdata
language: chi_sim
文章介绍了OCR技术,特别是通过Tess4j库在Java中实现文字识别的过程。它涉及导入Tess4j依赖,设置数据路径和语言,以及执行识别操作。示例代码展示了如何处理BufferedImage并获取识别结果。
591

被折叠的 条评论
为什么被折叠?



