Tesseract训练如何加入中文常见字体

为什么要加中文字体?

医院内部的pacs系统,都运行在windows上,为了能正常和最好的显示中文,一定会选择中文字体。
从测试结果上看,字体对OCR的识别率影响比较大,因此,训练使用的字体应该包含医院pacs内的字体,才能有最佳的识别率。
Ubuntu内部是没有windows常见的字体的(版权问题),需要将windows的常见字体安装到Ubuntu内部,才能进行中文字体的OCR训练。

如何加入中文字体?

从windows里拷贝过来即可,ttf格式是一种通用格式。
进入windows系统盘的/Windows/Font,将里面的文件都拷贝到Ubuntu里。
Ubuntu有多个Font文件夹,作者拷贝到Ubuntu用户的文件夹里(/.local/share/fonts或/.fonts都可以,fc-cache -fv会从这两个路径搜索)
然后执行fc-cache -fv即可加载生效。

应该加入什么中文字体?

windows常见字体

中文字体数之不尽,不可能穷尽,只能采用最常用的字体进行训练。
windows常见字体可以参考网文 >注:在XP系统中,没有仿宋、楷体,只有仿宋_GB2312和楷体_GB2312这两种字体。但是到了Win7系统,却只有仿宋和楷体,没有了仿宋_GB2312和楷体>_GB2312这两种字体。所以在XP系统下制作的公文在Win7系统中打开,全部转换成系统默认的微软雅黑字体。而在Win7系统下制作的公文在XP系统中打开,全>部转换成系统默认的宋体。 根据以上建议,中文训练字体为:微软雅黑,宋体,仿宋,新宋体,楷体以及黑体。(Microsoft YaHei, SimSun, FangSong, NSimSun, KaiTi, SimHei)

非常见字体

不常见的字体如果模型泛化效果不好,则需要从医院pacs内的拿回截屏图片进行分析(不是手机拍照!)(Ubuntu服务器项目根目录的ocr_images内有)
将有效内容的截屏图片放到[在线字体识别网站](https://www.likefont.com/)中进行分析,可以大概率分析出可能的字体(建议加人眼对比判断选择)
然后搜索和下载对应的字体,拷贝到Ubuntu的Fonts文件夹里,将训练过程新增该字体,进行模型的重新训练即可。

查看系统字体情况

字体查看和管理

如果需要了解字体的示例效果等,可以sudo apt install font-manager,会有UI界面很直观的进行展现。

罗列所有字体

fc-list :lang=zh

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: Tesseract是一个开源的OCR(Optical Character Recognition)引擎,它可以识别图像中的文本。对于Tesseract来说,训练库是非常重要的。训练库包含了各种语言和字体的数据,用于训练Tesseract引擎以正确地识别和理解不同的字形。 训练库不仅包含文字样本,还包含了这些文字样本的标签和特征信息。训练过程中,Tesseract会根据这些样本和标签对其进行学习,并根据字形特征来创建模型。这样,在实际应用中,Tesseract就能够根据训练库中的数据进行文字识别。 为了让Tesseract更好地适应各种不同的语言和字体,我们可以根据需要自己生成训练库。首先,我们需要准备包含大量文字样本的数据集。然后,通过对数据集进行标注,将每个字形与其对应的文本标签关联起来。接下来,在训练过程中,Tesseract会基于这些标注数据来优化其模型,并通过不断迭代来进一步提升准确性。 通过自己生成训练库,我们可以更好地适应特定的应用需求。例如,对于特定行业的专门术语,我们可以使用专门构建的训练库来提高文字识别的准确性。此外,自动生成训练库还能够帮助Tesseract识别不常见字体或手写文字。 总之,训练库是Tesseract的关键组成部分,它包含了各种语言和字体的数据样本,用于训练Tesseract引擎以识别和理解不同的字形。通过自己生成训练库,我们可以提升Tesseract的识别准确性,并使其更好地适应特定的应用场景。 ### 回答2: Tesseract是一个光学字符识别(OCR)引擎,可以将印刷字体文字转换成计算机可读的文本。为了实现准确的字符识别,Tesseract提供了训练库供用户使用。 训练库是Tesseract的核心组件之一,它主要用于训练Tesseract识别新的字体和语言。Tesseract默认只具备对一些常见语言和字体的识别能力,但用户可以通过使用训练库来增加新的字体和语言的支持。 训练库的使用需要一定的技术知识和编程经验。用户需要准备一组包含大量字体样本的图像,这些样本涵盖了待识别字体的各种字符。然后,用户需要用这些图像训练Tesseract识别这些新的字体训练过程中,Tesseract会根据图像样本中的字符特征对其进行学习和训练,以提高对这些字体的识别准确性。 训练库提供了一些工具和脚本来辅助用户进行训练过程。例如,用户可以使用其提供的文本文件来定义新的语言特征,如字符集、模式等。此外,训练库还提供了一些评估工具,用户可以用来测试训练后的模型的准确性和性能。 总之,Tesseract训练库是一个强大的工具,可以帮助用户训练和定制Tesseract来识别新的字体和语言。通过合理使用训练库,用户可以增加Tesseract的可适用范围,提高其字符识别的准确性和效果。但要注意,使用训练库需要一定的技术知识和经验,并且需要大量的图像样本来进行训练和测试。 ### 回答3: tesseract是一个开源的OCR(光学字符识别)引擎,可以用于识别图像中的文字内容。为了更好地适应不同种类的文本和字体tesseract提供了训练库(training data)。 训练库包含了用于训练和优化tesseract的模型所需的数据。通过使用训练库,用户可以自定义和训练tesseract以更好地适应特定字体、语言或文本样式。训练库提供了大量的样本数据,包括字母、数字、标点符号等。用户可以通过添加自己的样本数据,进一步提高tesseract在特定领域的识别准确度。 使用训练库进行训练是一个复杂的过程,需要用户具备一定的技术知识和经验。首先,用户需要收集适当的样本数据,尽可能覆盖各种字体和样式。然后,用户需要对数据进行预处理和标注,以便tesseract可以正确地识别和学习。接着,用户需要使用训练工具将样本数据和tesseract的基础模型进行训练和优化。训练的过程可能需要反复尝试和调整,直到达到满意的准确度。 训练库为用户提供了一个定制和优化tesseract的工具,使其能够更好地应对各种不同类型的文本和字体。但是,使用训练库进行训练需要投入大量的时间和精力,并且需要一定的专业知识。对于一般用户来说,可以直接使用tesseract的默认模型进行文字识别,而不需要额外的训练过程。然而,对于特定领域或特殊需求的用户来说,使用训练库进行定制训练可以提供更准确和可靠的识别结果。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值