Halcon 预训练的 OCR 字体

Halcon 预训练的 OCR 字体

预训练字体是使用深色打印在浅色背景上的符号进行训练的。如果你想使用提供的字体之一读取浅色打印在深色背景上的符号,你可以使用 invert_image 算子反转图像,或者,如果这样做无法获得满意的结果,可以先使用 gen_image_proto 算子设置一个浅灰色值来预处理图像,然后使用 overpaint_region 算子将灰度值设置为 0。

注意

预训练字体是使用 Windows-1252 字符编码进行训练的。因此,ASCII 码大于 127 的字符符号(如 ’e’、’£’、’¥’)的显示外观可能会因系统的字符编码而与预期外观不同。在这种情况下,应根据其 ASCII 码检查分类后的字符,即 ’e’ 的 ASCII 码为 128,’£’ 的 ASCII 码为 163,’¥’ 的 ASCII 码为 165。
除了基于卷积神经网络(CNN)的通用字体外,预训练字体均基于多层感知器(MLP)分类器。

1 具有正则化权重和拒绝类的预训练字体

所有预训练的 OCR 字体都有两个版本。以 _NoRej 结尾的字体名称表示具有正则化权重但没有拒绝类,以 _Rej 结尾的字体名称表示具有正则化权重以及拒绝类。由于进行了正则化,预训练的 OCR 字体提供了更有意义的置信度。对于提供拒绝类的字体,能够将字符与背景杂波区分开来。具有拒绝类的字体在未找到字母时会返回 ASCII 码 26,即 SUB(替代符)。

2 现成可用的 OCR 字体的命名规则

有几组 OCR 字体可供使用。每组中的字体成员不同,因为它们包含不同的符号集。OCR 字体的内容由其名称描述。对于预训练 OCR 字体的名称,应用以下命名规则:
名称以组名开头,例如 DocumentDotPrint,后面跟着表示 OCR 字体中包含的符号集的指示符。这些指示符的含义如下:

  • 0-9:OCR 字体包含数字 0 到 9。
  • A-Z:OCR 字体包含大写字符 A 到 Z。
  • +:OCR 字体包含特殊字符。不同 OCR 字体的特殊字符列表略有不同。下面将分别给出每个 OCR 字体的特殊字符列表。
  • _NoRej:OCR 字体没有拒绝类。
  • _Rej:OCR 字体有拒绝类。
    如果 OCR 字体的名称不包含上述任何指示符,或者仅后跟 _NoRej_Rej 指示符,通常,该 OCR 字体包含数字 0 到 9、大写字符 A 到 Z、小写字符 a 到 z 以及特殊字符。一些 OCR 字体不包含小写字符(例如 DotPrint)。这会在相应 OCR 字体的描述中明确提及。
3 现成可用的 OCR 字体:Document(文档)

OCR 字体 “Document” 可用于读取以 Arial、Courier 或 Times New Roman 等字体打印的字符。这些是用于打印文档或信件的典型字体。
请注意,Arial 字体中的字符 “I”“l” 无法区分。这意味着“l”可能会被误识别为 “I”,反之亦然。
可用的特殊字符:- = + < >. # $ % & ( ) @ * e £ ¥
以下是具有不同符号集的可用 OCR 字体:

符号集带拒绝类的 OCR 字体名称不带拒绝类的 OCR 字体名称
0-9,A-Z,a-z,特殊字符Document_RejDocument_NoRej
A-Z,特殊字符Document_A-Z+_RejDocument_A-Z+_NoRej
0-9Document_0-9_RejDocument_0-9_NoRej
0-9,A-ZDocument_0-9A-Z_RejDocument_0-9A-Z_NoRej
4 现成可用的 OCR 字体:DotPrint(点阵打印)

OCR 字体 “DotPrint” 可用于读取由点阵打印机打印的字符(见图 1)。
它不包含小写字符。
可用的特殊字符:- / . * :
以下是具有不同符号集的可用 OCR 字体:

符号集带拒绝类的 OCR 字体名称不带拒绝类的 OCR 字体名称
0-9,A-Z,特殊字符DotPrint_RejDotPrint_NoRej
A-Z,特殊字符DotPrint_A-Z+_RejDotPrint_A-Z+_NoRej
0-9DotPrint_0-9_RejDotPrint_0-9_NoRej
0-9,特殊字符DotPrint_0-9+_RejDotPrint_0-9+_NoRej
0-9,A-ZDotPrint_0-9A-Z_RejDotPrint_0-9A-Z_NoRej

image-20250313172143939

5 现成可用的 OCR 字体:HandWritten_0-9(手写数字 0-9)

OCR 字体 “HandWritten_0-9” 可用于读取手写数字(见图 2)。
它包含数字 0 到 9。
可用的特殊字符:无
以下是可用的 OCR 字体:

符号集带拒绝类的 OCR 字体名称不带拒绝类的 OCR 字体名称
0-9HandWritten_0-9_RejHandWritten_0-9_NoRej

image-20250313172230998

6 现成可用的 OCR 字体:Industrial(工业字体)

OCR 字体 “Industrial” 可用于读取以 Arial、OCR - B 或其他无衬线字体打印的字符(见图3)。这些字体通常用于打印标签等。
可用的特殊字符: - / + . $ % * e £ ¥
以下是具有不同符号集的可用 OCR 字体:

符号集带拒绝类的 OCR 字体名称不带拒绝类的 OCR 字体名称
0 - 9、A - Z、a - z、特殊字符Industrial_RejIndustrial_NoRej
A - Z、特殊字符Industrial_A - Z+_RejIndustrial_A - Z+_NoRej
0 - 9Industrial_0 - 9_RejIndustrial_0 - 9_NoRej
0 - 9、特殊字符Industrial_0 - 9+_RejIndustrial_0 - 9+_NoRej
0 - 9、A - ZIndustrial_0 - 9A - Z_RejIndustrial_0 - 9A - Z_NoRej

image-20250313172458090

7 现成可用的 OCR 字体:OCR - A

OCR 字体 “OCR - A” 可用于读取以 OCR - A 字体打印的字符(见图4)。
可用的特殊字符: - ? ! / \ {} = + < > . # $ % & ( ) @ * e £ ¥
以下是具有不同符号集的可用 OCR 字体:

符号集带拒绝类的 OCR 字体名称不带拒绝类的 OCR 字体名称
0 - 9、A - Z、a - z、特殊字符OCRA_RejOCRA_NoRej
A - Z、特殊字符OCRA_A - Z+_RejOCRA_A - Z+_NoRej
0 - 9OCRA_0 - 9_RejOCRA_0 - 9_NoRej
0 - 9、A - ZOCRA_0 - 9A - Z_RejOCRA_0 - 9A - Z_NoRej

image-20250313172512118

8 现成可用的 OCR 字体:OCR - B

OCR 字体 “OCR - B” 可用于读取以 OCR - B 字体打印的字符(见图 5)。
可用的特殊字符: - ? ! / \ {} = + < > . # $ % & ( ) @ * e £ ¥
以下是具有不同符号集的可用 OCR 字体:

符号集带拒绝类的 OCR 字体名称不带拒绝类的 OCR 字体名称
0 - 9、A - Z、a - z、特殊字符OCRB_RejOCRB_NoRej
A - Z、特殊字符OCRB_A - Z+_RejOCRB_A - Z+_NoRej
0 - 9OCRB_0 - 9_RejOCRB_0 - 9_NoRej
0 - 9、A - ZOCRB_0 - 9A - Z_RejOCRB_0 - 9A - Z_NoRej
0 - 9、A - Z、+ 和 <OCRB_passport_RejOCRB_passport_NoRej

image-20250313172524741

9 现成可用的 OCR 字体:Pharma(制药)

OCR 字体 “Pharma” 可用于读取以 Arial、OCR - B 等字体以及制药行业常用的其他字体打印的字符(见图 6)。
此 OCR 字体不包含小写字符。
可用的特殊字符: - / . ( ) :
以下是具有不同符号集的可用 OCR 字体:

符号集带拒绝类的 OCR 字体名称不带拒绝类的 OCR 字体名称
0 - 9、A - Z、特殊字符Pharma_RejPharma_NoRej
0 - 9Pharma_0 - 9_RejPharma_0 - 9_NoRej
0 - 9、特殊字符Pharma_0 - 9+_RejPharma_0 - 9+_NoRej
0 - 9、A - ZPharma_0 - 9A - Z_RejPharma_0 - 9A - Z_NoRej

image-20250313173008342

图 6:制药标签示例

10 现成可用的 OCR 字体:SEMI

OCR 字体 “SEMI” 可用于读取以 SEMI 字体打印的字符。SEMI 字体的字符设计得易于相互区分。它包含的字符集有限,可在图 7 中查看。
此 OCR 字体不包含小写字符。
可用的特殊字符: - .
以下是可用的 OCR 字体:

符号集带拒绝类的 OCR 字体名称不带拒绝类的 OCR 字体名称
0 - 9、A - Z、特殊字符SEMI_RejSEMI_NoRej

image-20250313173023453

图 7:SEMI 字体的字符集。

image-20250313173035018

图 8:SEMI 字体示例。请注意,在训练之前这些图像进行了反转处理!也就是说,该字体仍然仅针对深色字符印在浅色背景上进行了预训练。

11 现成可用的 OCR 字体:Universal(通用)

OCR 字体 “Universal” 可用于读取多种不同的字符(见图 9)。这种基于卷积神经网络(CNN)的字体是基于 “Document”、“DotPrint”、“SEMI” 和 “Industrial” 字体所使用的字符进行训练的。
可用的特殊字符: - / = + : < > . # $ % & ( ) @ * e £ ¥
以下是可用的 OCR 字体:

符号集带拒绝类的 OCR 字体名称不带拒绝类的 OCR 字体名称
0 - 9、A - Z、a - z、特殊字符Universal_RejUniversal_NoRej
A - Z、特殊字符Universal_A - Z+_RejUniversal_A - Z+_NoRej
0 - 9Universal_0 - 9_RejUniversal_0 - 9_NoRej
0 - 9、特殊字符Universal_0 - 9+_RejUniversal_0 - 9+_NoRej
0 - 9、A - ZUniversal_0 - 9A - Z_RejUniversal_0 - 9A - Z_NoRej
0 - 9、A - Z、特殊字符Universal_0 - 9A - Z+_RejUniversal_0 - 9A - Z+_NoRej

image-20250313173046517

HALCON是一种计算机视觉库,提供了OCR(Optical Character Recognition,光学字符识别)功能。在HALCON中,OCR识别的基本流程包括采集图像、提取字符区域、读取字库句柄、进行识别、清除句柄等步骤。\[1\]HALCON提供了一组预先训练好的字体,可以用于识别各种领域的文本,包括文档、制药、工业产品甚至手写数字文本。此外,HALCON还包括了针对特定字体预训练字体,以及基于卷积神经网络的通用字体。\[2\]在HALCON中,可以使用do_ocr_multi_class_mlp函数来读取多个字符,或者使用do_ocr_single_class_mlp函数来读取单个字符。同时,还可以使用do_ocr_word_mlp函数来进行单词的OCR识别。\[3\] #### 引用[.reference_title] - *1* [Halcon学习之OCR字符识别](https://blog.csdn.net/Mr_Four97/article/details/131161813)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [Halcon解决方案指南(18)OCR--字符识别](https://blog.csdn.net/IntegralforLove/article/details/83756956)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值