Windows下Tesseract训练音符识别

最新推荐文章于 2024-07-29 16:52:17 发布

代码狂魔v

最新推荐文章于 2024-07-29 16:52:17 发布

阅读量674

点赞数

分类专栏：代码狂魔

本文链接：https://blog.csdn.net/xvktdmjg/article/details/118270301

版权

本文详细介绍了在Windows环境下使用Tesseract OCR引擎训练音符识别的过程，包括素材准备、二值化、Tesseract软件安装、训练样本合并、校正、训练以及Java调用Tesseract的方法，通过不断训练提高识别准确率。

摘要由CSDN通过智能技术生成

Windows下Tesseract训练音符识别

背景

Windows下Tesseract训练音符识别

开局一张图：现在有这么一个需求，要将数字简谱中的数字带点的内容识别出来做进一步的处理，比如

6 1 6 641 533
.   . ...

识别成

F 1 F FDA 5 3 3

其实就是通过下面的映射关系识别

# 原简谱
                            .
1 2 3 4 5 6 7 1 2 3 4 5 6 7 1
. . . . . . .

# 映射
A B C D E F G 1 2 3 4 5 6 7 a

识别成什么无所谓，只要能区分带点的数字和不带点的数字即可，带点的这种数字是简谱的特殊字符，纯字符是打不出来的，这也是难点，有以下思路

打开调试工具，观察dom结构，用js来区分，但是上面的截图是小程序，小程序目前还不能用chrome打开，因为微信小程序的浏览器封装了很多浏览器没有的功能，所以这个方案暂时放弃
通过OCR文字识别，识别曲谱中的数字，但是带点的数字识别不了，可以通过训练样本，然后制作成字库文件进行识别，将带点的数字用英文表示（上面的映射关系）

准备工作

素材准备

首先需要找到样本，上面截图中的键盘很不错，字符很全，就拿这个当做训练样本，首先进行二值化（Binarization）操作，二值化可参考维基百科
:https://zh.wikipedia.org/zh-hans/%E4%BA%8C%E5%80%BC%E5%8C%96

二值化的目的主要是为了简化背景，提供识别度，下面是Java的二值化代码

public void binaryImage(String in,String out) throws IOException{
        File file = new File(in);
        BufferedImage image = ImageIO.read(file);

        int width = image.getWidth();
        int height = image.getHeight();

        BufferedImage grayImage = new BufferedImage(width, height, BufferedImage.TYPE_BYTE_BINARY);//重点，技巧在这个参数BufferedImage.TYPE_BYTE_BINARY
        for(int i= 0 ; i < width ; i++){
            for(int j = 0 ; j < height; j++){
                int rgb = image.getRGB(i, j);
                grayImage.setRGB(i, j, rgb);
            }
        }

        File newFile = new File(out);
        ImageIO.write(grayImage, "png", newFile);
    }

调用方式如下，输出一个图片文件，输出二值化后的图片文件

public static void main(String[] args) throws IOException {
    ImageBinaryzation demo = new ImageBinaryzation();
    demo.binaryImage("D:\\20210626102826.jpg","D:\\20210626102826二值化.png");
}

二值化前后对比如下

Windows下Tesseract训练音符识别