【论文翻译】HCL2000—A Handwritten Chinese Character Database

HCL2000—一个大型的手写汉字识别的数据集

【摘要】 本文提出了一种大规模离线手写汉字数据库-HCL2000,供研究界使用。该数据库包含3,755个经常使用的简体中文字符,由1,000名不同的受试者撰写。本文将“信息”引入到数据库中,便于对不同背景的群体作者进行测试,如年龄、职业、性别、教育等。我们从不同的作家群体中考察写作风格的特点。我们以三种不同的算法为基准,对HCL2000数据库进行了评价。我们决定将数据库与本文一起发布,为研究目的腾出空间。

【补充】 北京邮电大学模式识别实验室发布的数据。HCL2000是目前最大的脱机手写汉字库,共有1000个人书写,除了汉字样本库外,还有一个对应的书写者信息库,记录了书写者的年龄、职业、文化程度等信息,用于研究相关影响因素。目前此数据库免费向研究者公开。这是一份非常优秀的数据,是汉字识别的首选测试数据库。【HCL2000脱机手写汉字库下载地址】

1 Introduction

脱机手写体汉字识别 研究已有30多年的历史,许多系统都声称具有较高的识别精度,但在实际应用中应用的不多。对识别准确性的有限评价往往是缺乏可公开的大型数据库。研究人员使用他们自己收集的数据库来评估系统的性能。因此,结果常常不能直接比较。由于许多日语和汉字之间的相似性,日语字符数据库通常在中文识别设置中具有效用。数据采集与评价在自动目标识别技术的发展中起着非常重要的作用。例如,人脸识别界受益于面部识别技术(FERET)数据库,该数据库包括2 413幅静止人脸图像,代表856个人。庞大的数据集推动了新算法的发展。这些独立的评估提供了对技术现状的公正评估,并确定了最有希望的方法。此外,从Feret项目开始到2006年的人脸识别供应商测试(FRVT),这些评估记录了性能上的两个数量级的改善。在许多其他物体识别任务中也作出了类似的努力。

【补充】 手写识别能够使用户按照最自然、最方便的输入方式进行文字输入,易学易用,可取代键盘或者鼠标。手写识别属于文字识别和模式识别范畴,文字识别从识别过程来说分成脱机识别(off-line)和联机识别(on-line) 两大类,从识别对象来说又分成手写体识别和印刷体识别 两大类。

然而,目前还没有大规模的手写体汉字数据库公开。 目前最先进的脱机手写体汉字数据库有ETL字库、KAIST数据库、JEITA数据库和IRTI数据库.ETL字符数据库是在日本电子工业发展协会、大学和其他研究机构的合作下,在Electrotechnical Laboratory收集的。ETL1-ETL9包含大约120万个手写和机器打印的字符图像,其包括用于字符识别研究的日语、中文、拉丁语和数字字符。数据库的字符图像是通过扫描OCR(光学字符识别) 或用扫描仪扫描汉字印刷版获得的。所有的ETL1-ETL9都是灰度图像数据。ETL8和ETL9是二值化图像,并且对公众开放。ETL9数据集涵盖了2965个中文字符和71个平假名,每类由400名书写者书写200例。ETL8数据集涵盖了881类中文字符和75个平假名,每类由1600名书写者书写160例。字符图像有60×60,64×63,72×76和128×127像素的版本。字符图像文件由一个以上的记录组成,该记录具有字符图像和具有正确代码的ID信息。KAIST Hanja1和KAIST Hanjia2是由Korea Advanced Institute of Science and Technology此机构收集的。Hanja 1数据库有783个最常用的类。每类包含200名书写者在实验环境中收集的200份样本。Hanja 2数据库有从实际文件中收集的1 309个样本。Hanja 2数据库中的样本数量随类的不同而不同。Hanja 1的图像质量相当干净,而Hanja 2数据库则非常嘈杂。JEITA-HP最初由Hewlett Packard日本公司收集,后来由JEITA(Japan Electronics and Information Technology Association)发布。它由两个数据集组成:数据集A(480个书写者)和数据集B(100个书写者)。一般来说,数据集B比数据集A写得更整洁,整个数据库由3214个字符类组成(2965汉字,82 平假名,10个数字,157个其他字符(英文字母表、katakana和符号)。最常见的平假名和数字出现在每个文件中两次。每个字符模式的分辨率为64×64像素,编码为512字节。ITRI是由Industrial Technology Research Institute(中国,台湾)收集的。 它由5401个手写汉字类别,每类有200例。

【补充】 OCR (Optical Character Recognition,光学字符识别) 是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。

在这篇文章里,我们提出了一个新的大规模的手写汉字数据集,HCL2000 (Handwritten Character Library 2000)方便手写体中文识别研究。HCL 2000中的“2000”一词表示该数据库包含2000年收集的2000个样本。中国863高技术项目支持HCL2000的收集工作。HCL 2000的收集是由中国政府通过中国863高科技项目资助的。与现有的手写体汉字数据库不同,HCL 2000具有两个特点:一是数量庞大,图像样本总数为3755000;二是包含了书写者的信息,可以帮助研究者研究不同书写者的书写风格和书写者身份。 书写者的资料包括年龄、职业、性别、受教育程度、地址等,详细的描述了HCL 2000的系统模型。我们讨论了基于HCL 2000的评估方法,并给出了三种算法的性能作为基线。HCL 2000过去曾被少数研究人员用于评估其系统。为了促进手写体汉字识别,我们决定在本文发表后发布数据库。为了研究目的,我们将为研究团体提供免费的数据库。

2 The System Model

我们使用一个系统模型来控制HCL 2000中的信息,它不仅包含汉字图像,而且还包含书写者的信息。该模型提供了一种管理两个子数据库的机制。图1说明了系统数据库模型。HCL 2000包括两个子数据库,一个是手写汉字样本数据库,另一个是书写者信息库。为了方便地使用这两个数据库,分别建立了两个管理系统。字符样本数据库的用户在浏览汉字图像时,可以通过访问作者的信息来查询“谁写了这些字符”;用户还可以通过在浏览书写者的信息时查询汉字图像数据库来查询“书写者的写作风格如何”。通过使用管理系统,用户可以查看作者的所有字符示例(如图2.(B)所示),或某些作者的所有字符样本,或作者的选定字符或某些作者的选定字符(如图2.(A)所示)。

【补充】 HCL2000数据集实际上是包含两个子数据集的,一个是手写汉字样本数据库,另一个是书写者信息库。这就建立了多种关系或者说是方向,举个栗子:同一书写者的不同汉字(笔迹问题),不同书写者的同一汉字,对书写者汉字书写的影响因素等等。

2.1. The Handwritten Chinese Character Samples Database

字符样本由不同的作者组织并存储在PID(个人识别)文件中,如图3(A)所示,同一作者编写的样本按节码顺序排列,如图3(B)所示。PID文件的文件格式定义为文件头和字符示例。每个文件中都有一个512字节的文件头,用于包含PID、水平和垂直方向的扫描精度、整个文件的大小等信息。每个中文字符示例描述为64×64二进制像素,大小为512字节,如图3(B)所示。

2.2. The Writers’ Information Database

除了作者的PID信息外,作者的信息还包括性别、年龄、职业、教育程度、书写工具等。所有书写者的信息都以512字节的速度存储在文件头中,表1列出了文件头的详细定义。
我们假设笔迹风格因文化程度、年龄和职业不同而不同,因此,不同背景的书写者被邀请按比例书写样本。我们的研究表明,受教育程度较高的作家书写性格更为正式,而同一职业的书写者则具有相似的写作风格。表2显示了书写者受教育的比例,表3显示了书写者年龄的比例,表4显示了HCL2000书写者职业的比例。

3 The Evaluation Based on Writers’ Information

我们研究了错误率与书写者信息之间的关系,并发现了一些有趣的结果。我们使用700组标记从xx 001到xx 700的做为测试集,其余的标记从hh 001到hh 300用做于训练集。识别过程分为两个步骤。首先,对输入图像进行预处理,根据方向元素特征(DEF)对输入图像进行粗略分类,在余弦变换的基础上,选取30个候选图像作为分类器。 首先根据作者的教育程度得出样本的误差率,如表5所示,错误率随受教育程度的增加而降低,而对以上本科学生的误差率则随着教育程度的增加而增加,因为样本数大,且写入样本不严重。图4是两种教育程度的样本,图4(A)显示技术学院科目编书写的一些例子,图4(B)是大学本科生书写的例子。表6显示了不同年龄段的错误率,40多岁的错误率最低,因为书写者的写作风格是稳定的,而且他们对这一项工作较为严谨。另一方面,二十多岁的书写者的笔迹比较随意,故而出错率最高。图5显示两个不同年龄的样本,图5(A)是来自40多岁的书写者的样本,图5(B)是来自20多岁的书写者的样本,我们可以看到,40多岁的人的写作风格相较于其他年龄段的比较正式。
在中国,最难的书写方式之一是医生的药方,因为他们的处方写得很粗糙,甚至人类也很难辨认,实验结果证实了这一点。在所有职业中,医生的误差率最高。一些结果如表7所示,科学家和教师的错误率很低,因为他们的写作风格更正式。

4 Evaluation on HCL2000

为了评估HCL2000,我们考虑了类似汉字的非线性流形结构,并提出了一种结合全局信息和局部判别线索的级联框架对3755个手写体汉字类进行分类。 首先利用最近邻分类器(NN)求出不同词的相似度,然后进行线性判别分析(LDA)、局部保持投影(LPP)和边缘Fisher特征分析(MFA)【Baseline】。识别过程分为两个步骤。 首先,由NN分类器对输入图像进行预处理和分类,将其分配到字符组中。然后我们使用梯度特征进行进一步的鉴别。梯度特征矢量随后分别被变换到具有类标签信息的LPP、LDR和MFA表示。为了进行公平的比较,两个LPP都将k=20设为构造图的参数,并在以下所有实验中使用了简单的加权方案。对于MFA,其参数K1=3和K2=20,一个组中相似字符的最大数目为50。HCL 2000的结果如图6所示。

【补充】线性判别分析 (Linear Discriminate Analysis, LDA) 是一种可作为特征抽取的技术,可以提高数据分析过程中的计算效率,对于不适用与正则化的模型,可以降低因维度灾难带来的过拟合,是一种监督算法。主要思想:给定训练集样例,设法将样例投影到一条直线上,使得同类样例的投影尽可能接近,异类样例的投影点尽可能远离。详情可以参见大佬的博客。

在实验结果的基础上,MFA、LPP优于LPP。 由于相同类的手写字符彼此靠近地映射,所以Ld产生一些有意义的投影。但它只发现了欧氏结构,不能揭示手写字符所在的底层非线性流形。因此其鉴别能力有限。LPP和MFA是一种有监督的方法,可以保存局部邻域信息。它们的识别能力比LDA好,因为类似的手写字符包含变化和不同类别之间有显著的重叠。

5 Conclusions

本文介绍了一个大规模的手写体汉字数据库HCL 2000。据我们所知,HCL 2000是迄今为止拥有书写者信息最多的汉字手写数据库。它包含了3755个常用的简体汉字,由1000个不同的作家写成。将书写者的信息纳入数据库,以便于对年龄、职业、性别和教育等不同背景的作家进行分组测试。我们研究了不同作家群体的书写者风格特征。我们使用三种不同的算法作为基线来评估HCL 2000数据库。我们决定将该数据库与本文一起发布,并将其免费用于研究目的。

6 Acknowledgment

本工作部分由国家自然科学基金(自然科学基金)资助,赠款号为60675001,111项目(B 08004),863高科技项目,赠款号为2007a01z417。

  • 2
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值