AI-OCR原理

colorful_stars

已于 2022-04-05 16:23:44 修改

阅读量650

点赞数

分类专栏： AI 文章标签：人工智能

于 2022-03-21 22:56:19 首次发布

本文链接：https://blog.csdn.net/weixin_44720592/article/details/123648225

版权

AI 专栏收录该内容

1 篇文章

订阅专栏

本文介绍了如何通过灰度处理、分块、矫正和归一化对包含文字的图像进行预处理，然后提取特征并进行降维，以高效地进行文字分类。后续章节探讨了分类器设计、后处理技术，如校正和格式化，以及针对汉字识别的挑战和解决方案。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今日学习笔记

图片处理

灰度-分块-矫正-归一化

对包含文字的图像进行灰度处理，此时图像上只剩下黑白颜色；然后将图像进行分块处理，将图像中的单个文字分成单个的文字，当文字有倾斜的时候还需要将文字进行旋转矫正，之后将文字进行归一化处理，将文字调整成大小相等的尺寸；

特征提取和降维

提取文字特征-降低维度

特征是用来识别文字的关键信息，每个不同的文字都能通过特征来和其他文字进行区分。对于数字和英文字母来说，这个特征提取是比较容易的，因为数字只有10个，英文字母只有52个，都是小字符集。对于汉字来说，特征提取比较困难，因为首先汉字是大字符集，GB中最常用的第一级汉字就有3755个；第二个汉字结构复杂，形近字多。在确定了使用何种特征后，视情况而定，还有可能要进行特征降维，这种情况就是如果特征的维数太高（特征一般用一个向量表示，维数即该向量的分量数)，分类器的效率会受到很大的影响，为了提高识别速率，往往就要进行降维，这个过程也很重要，既要降低维数，又得使得减少维数后的特征向量还保留了足够的信息量（以区分不同的文字)。

分类器设计、训练和实际识别

按照特征对文字图像进行分类匹配

分类器是用来进行识别的，就是对于第二步，对一个文字图像，提取出特征给，丢给分类器，分类器就对其进行分类，告诉你这个特征该识别成哪个文字

后处理

对识别错误的文字进行校正、格式化处理

后处理是用来对分类结果进行优化的，第一个，分类器的分类有时候不一定是完全正确的（实际上也做不到完全正确)，比如对汉字的识别，由于汉字中形近字的存在，很容易将一个字识别成其形近字。后处理中可以去解决这个问题，比如通过语言模型来进行校正——如果分类器将“在哪里”识别成“存哪里”，通过语言模型会发现“存哪里”是错误的，然后进行校正。第二个，OCR的识别图像往往是有大量文字的，而且这些文字存在排版、字体大小等复杂情况，后处理中可以尝试去对识别结果进行格式化。