调用ocr解析图片内容

最新推荐文章于 2022-09-14 16:36:46 发布

wep12

最新推荐文章于 2022-09-14 16:36:46 发布

阅读量441

点赞数 2

分类专栏：代码文章标签：解析图片

代码专栏收录该内容

2 篇文章 0 订阅

订阅专栏

package net.wocai.tools.spider;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.ArrayList;
import java.util.List;
import org.jdesktop.swingx.util.OS;

public class OCR {
private final String LANG_OPTION = "-l"; //英文字母小写l，并非数字1
private final String EOL = System.getProperty("line.separator");
private String tessPath = "D://orc//Tesseract-OCR";
//private String tessPath = new File("tesseract").getAbsolutePath();

public String recognizeText(File imageFile)throws Exception{
// File tempImage = ImageIoHelper.createImage(imageFile,imageFormat);
File outputFile = new File(imageFile.getParentFile(),"output");
// String s=imageFile.getParentFile().getParentFile().toString();
//System.out.println(imageFile.getParentFile().getParentFile());
StringBuffer strB = new StringBuffer();
List cmd = new ArrayList();
if(OS.isWindowsXP()){
cmd.add(tessPath+"//tesseract");
}else if(OS.isLinux()){
cmd.add("tesseract");
}else{
cmd.add(tessPath+"//tesseract");
}
cmd.add("");
cmd.add(outputFile.getName());
cmd.add(LANG_OPTION);
// cmd.add("chi_sim");
cmd.add("eng");
// cmd.add("E:");
// cmd.add(LANG_OPTION);
// cmd.add("tesseract"+" "+imageFile+" "+"output");
// cmd.add("eng");
ProcessBuilder pb = new ProcessBuilder();
pb.directory(imageFile.getParentFile());

cmd.set(1, imageFile.getName());
pb.command(cmd);
pb.redirectErrorStream(true);

Process process = pb.start();
//tesseract.exe 1.jpg 1 -l chi_sim
int w = process.waitFor();

//删除临时正在工作文件
// tempImage.delete();

if(w==0){
BufferedReader in = new BufferedReader(new InputStreamReader(new FileInputStream(outputFile.getAbsolutePath()+".txt"),"UTF-8"));

String str;
while((str = in.readLine())!=null){
strB.append(str).append(EOL);
}
in.close();
}else{
String msg;
switch(w){
case 1:
msg = "Errors accessing files.There may be spaces in your image's filename.";
break;
case 29:
msg = "Cannot recongnize the image or its selected region.";
break;
case 31:
msg = "Unsupported image format.";
break;
default:
msg = "Errors occurred.";
}
//tempImage.delete();
throw new RuntimeException(msg);
}
new File(outputFile.getAbsolutePath()+".txt").delete();
// System.out.println(strB.toString());
return strB.toString();
}
}

wep12

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
调用ocr解析图片内容

package net.wocai.tools.spider;import java.io.BufferedReader; import java.io.File; import java.io.FileInputStream; import java.io.InputStreamReader; import java.util.ArrayLis
复制链接

扫一扫