Tesseract 4 自行构建支持双引擎的tessdata 文件

最新推荐文章于 2024-07-08 09:38:15 发布

烛龙之穹

最新推荐文章于 2024-07-08 09:38:15 发布

阅读量3.8k

点赞数 1

本文链接：https://blog.csdn.net/xiaoqingfengCSDN/article/details/81032235

版权

本文介绍了如何构建一个支持Tesseract 4双引擎识别的tessdata文件。通过结合tessdata_best库的LSTM引擎训练数据和tessdata库的传统引擎数据，创建一个包含最新LSTM和传统引擎数据的eng.traineddata文件，以提高OCR识别精度。

摘要由CSDN通过智能技术生成

Tesseract 4 版本具备两种识别引擎：新的基于LSTM（神经网络）引擎与传统引擎。通过在初始化时设定不同的EngineMode启动。

OCR Engine modes:
  0    Legacy engine only.
  1    Neural nets LSTM engine only.
  2    Legacy + LSTM engines.
  3    Default, based on what is available.

当设置OcrEngineMode为2时，则表示启动双引擎进行识别，Tesseract首先会尝试LSTM引擎，如果识别失败，则会再使用传统引擎进行识别，此种模式追求高精确度，但会消耗较多的系统资源。

Tesseract在识别时，是需要训练数据文件，也就是tessdata。两种引擎对训练数据文件的要求不同，两种引擎训练数据也不通用。

在GitHub上tessdata_fast （https://github.com/tess

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

烛龙之穹

关注关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

java tessdata训练_Tesseract训练中文字体识别

weixin_34188576的博客

02-26

702

注：目前仅说明windows下的情况前言网上已经有大量的tesseract的识别教程，但是主要有两个缺点：大多数比较老，有部分内容已经不适用。大部分只是就英文的训练进行探索，很少针对中文的训练。接下来尽可能详细的介绍自己tesseract训练中文识别的经验。本文中使用的tesseract版本为3.05;为什么用3.05呢？从官方文档上看4.0版本(windows版本于2017年1月30号发布)显著...

tesseract-ocr/tessdata

08-15

处理程序报此错误：pytesseract.pytesseract.TesseractError

参与评论您还未登录，请先登录后发表或查看评论

文字识别Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件

05-30

1. 样本图片准备 2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片 3 弹出保存对话框，还是选择在当前路径下保存，文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的ty.cp.exp6.tif ，会自动关联到 “ty.cp.exp6.box” 文件： 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件在终端中执行以下命名： tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件在终端中执行以下命令： unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件（inttemp、pffmtable、normproto、shapetable）的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件在终端中执行以下命令： combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7

tesseract-ocr 字库训练（提高识别率进阶版）

最新发布

m0_60769905的博客

07-08

2837

打开 jTessBoxEditor ，点击Box Editor ->Open ，打开 mjorcen.normal.exp0.tif，会自动关联到“mjorcen.normal.exp0.box”文件，这两文件要求在同一目录下，调整完点击“save”保存修改。执行如下命令： tesseract mjorcen.normal.exp0.tif mjorcen.normal.exp0 nobatch box.train。执行下面命令，执行完之后，会在当前目录生成zwp.test.exp0.tr文件。

Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件

05-30

新版Tesseract-OCR tessdata eng.traineddata OCR识别训练数据文件可自己训练. 1. 样本图片准备 2. 打开 jTessBoxEditor ，选择 Tools -> Merge TIFF，打开对话框，选择训练样本所在文件夹，并选中所有要参与训练的样本图片 3 弹出保存对话框，还是选择在当前路径下保存，文件命名为ty.cp.exp6.tif 4. tesseract ty.cp.exp6.tif ty.cp.exp6 -l ty batch.nochop makebox 5. 打开 jTessBoxEditor ，点击 Box Editor -> Open ，打开步骤2中生成的ty.cp.exp6.tif ，会自动关联到 “ty.cp.exp6.box” 文件： 6. 使用echo命令创建字体特征文件 echo cp 0 0 0 0 0>font_properties. 输入内容 “cp 0 0 0 0 0” 7. 使用 tesseract 生成 ty.cp.exp6.tr 训练文件在终端中执行以下命名： tesseract ty.cp.exp6.tif ty.cp.exp6 nobatch box.train 8. 生成字符集文件在终端中执行以下命令： unicharset_extractor ty.cp.exp6.box 9. mftraining -F font_properties -U unicharset -O ty.unicharset ty.cp.exp6.tr 与 cntraining ty.cp.exp6.tr 生成之后手工修改 Clustering 过程生成的 4 个文件（inttemp、pffmtable、normproto、shapetable）的名称为 [lang].xxx。这里改为 ty.inttemp、ty.pffmtable、ty.normproto、ty.shapetable。 10. 合并数据文件在终端中执行以下命令： combine_tessdata ty. tesseract b01.jpg result -l ty --psm 7

Tesseractocr英文字库2017最新eng.traineddata英文tessdata

11-07

Tesseractocr英文字库2017最新eng.traineddata英文tessdata

探索Tesseract OCR的高效数据集：tessdata_fast

gitblog_00078的博客

04-19

606

探索Tesseract OCR的高效数据集：tessdata_fast tessdata_fast项目地址:https://gitcode.com/gh_mirrors/te/tessdata_fast 是该项目的一个特定数据集，优化了识别速度和性能。项目简介 tessdata_fast 数据集是Tesseract OCR的一部分，它包含了许多预先训练的模型，这些模型针对不同语言进行了优化，以...

tessdata-4.1.0-2024-03-20.zip Tessdata是包含Tesseract OCR引擎所需的训练数据

03-20

Tessdata是包含Tesseract OCR引擎所需的训练数据文件（`.traineddata`），用于识别不同语言的文字。使用场景的区别：当你的OCR任务需要识别特定语言的文本时，使用tesdata目录中的语言特定训练数据文件会更加合适...

tesseract-ocr/tessdata 语言包

08-15

"tesseract-ocr/tessdata 语言包"便是为了增强Tesseract对各种语言的支持。 **语言包的作用** Tesseract语言包包含了训练Tesseract识别特定语言所需的字形、词汇和语言模型。每个语言包都是一个单独的文件，通常以...

tessdata各语言集合包+tesseract-ocr-w64-setup-v5.3.0.20221214.exe

10-30

Tesseract支持多种语言，并且可以通过其内置的"Tessdata"数据包进行扩展。这些数据包包含了训练模型和语言数据，使得Tesseract可以识别特定语言的文本。 **Tessdata语言集合包** "Tessdata"是Tesseract OCR引擎的...

tessdata中文训练库

03-05

Tessdata.zip

12-02

字符（eng）的资源文件，用于字符识别，主要包括eng.cube.bigrams，eng.cube.fold，eng.cube.lm，eng.cube.nn，eng.cube.params，eng.cube.size，eng.cube.word-freq，eng.tesseract_cube.nn，eng.traineddata的9个文件。

tesseractdata各语言集合包.zip

08-25

tesseract各语言集合包

Tesseract中文语言包3.0.4 (chi_sim.traineddata)

09-08

Tesseract中文语言包3.0.4 (chi_sim.traineddata)

tessdata.rar

04-01

如果你能看懂这个名字，那你肯定知道它该怎么用！更多精彩请访问www.libaier.net

tessdata.zip

03-21

tess库，简体中文和英文的两种，从google上也可以下到。

用Tesseract4J识别图片时，如何指定Tesseract-OCR\tessdata位置？

04-04

在使用Tesseract4J识别图片时，可以通过以下代码指定Tesseract-OCR\tessdata的位置： ```java ITesseract instance = new Tesseract(); instance.setDatapath("C:\\path\\to\\tessdata"); ``` 其中，"C:\\path\\to\\tessdata"应该替换为Tesseract-OCR\tessdata所在的实际路径。这样，在识别图片时，Tesseract4J就会在指定的目录中查找OCR所需的语言数据。