1算法原理
OCR 的基本原理可分为:图像预处理、图像分割、字符识别和识别结果处理四个部分(如下图)。
1.1 图像预处理
对包含文字的图像进行处理以便后续进行特征提取、学习。这个过程的主要目的是减少图像中的无用信息,以便方便后面的处理。在这个步骤通常有:灰度化、降噪、二值化、字符切分以及归一化等子步骤。经过二值化后,图像只剩下 黑和白两种颜色。降噪在这个阶段非常重要,降噪算法的好坏对特征提取的影响 很大。字符切分则是将图像中的文字分割成单个文字——识别的时候是一个字一 个字识别的。如果文字行有倾斜的话往往还要进行倾斜校正。归一化则是将单个的文字图像规整到同样的尺寸,在同一个规格下,才能应用统一的算法。
1.2 图像分割
图像预处理之后,进行图像分割,常用的方法有阈值分割或边缘分割等方法。
·阈值分割:灰度阈值分割法是一种最常用的并行区域技术,它是图像分割中应用数量最多的一类。阈值分割方法实际上是输入图像 f 到输出图像 g 的如下变换:
G ( i , j ) = { 1 G ( i , j ) ≥ T 0 G ( i , j ) < T G(i,j)=\left\{ \begin{array}{rcl} 1 & & {G(i,j)≥T}\\ 0 & & {G(i,j)<T}\\ \end{array} \right. G(