【论文翻译】HCL2000—A Handwritten Chinese Character Database

最新推荐文章于 2024-06-17 09:35:23 发布

PRIS-SCMonkey

最新推荐文章于 2024-06-17 09:35:23 发布

阅读量2.3k

点赞数 2

分类专栏：深度学习Deep Learning 论文翻译数据集文章标签： HCL2000 手写汉字数据集论文翻译

深度学习Deep Learning 同时被 3 个专栏收录

54 篇文章 40 订阅

订阅专栏

数据集

5 篇文章 1 订阅

订阅专栏

论文翻译

4 篇文章 1 订阅

订阅专栏

HCL2000—一个大型的手写汉字识别的数据集

【摘要】 本文提出了一种大规模离线手写汉字数据库-HCL2000，供研究界使用。该数据库包含3,755个经常使用的简体中文字符，由1,000名不同的受试者撰写。本文将“信息”引入到数据库中，便于对不同背景的群体作者进行测试，如年龄、职业、性别、教育等。我们从不同的作家群体中考察写作风格的特点。我们以三种不同的算法为基准，对HCL2000数据库进行了评价。我们决定将数据库与本文一起发布，为研究目的腾出空间。

【补充】 北京邮电大学模式识别实验室发布的数据。HCL2000是目前最大的脱机手写汉字库，共有1000个人书写，除了汉字样本库外，还有一个对应的书写者信息库，记录了书写者的年龄、职业、文化程度等信息，用于研究相关影响因素。目前此数据库免费向研究者公开。这是一份非常优秀的数据，是汉字识别的首选测试数据库。【HCL2000脱机手写汉字库下载地址】

1 Introduction

脱机手写体汉字识别 研究已有30多年的历史，许多系统都声称具有较高的识别精度，但在实际应用中应用的不多。对识别准确性的有限评价往往是缺乏可公开的大型数据库。研究人员使用他们自己收集的数据库来评估系统的性能。因此，结果常常不能直接比较。由于许多日语和汉字之间的相似性，日语字符数据库通常在中文识别设置中具有效用。数据采集与评价在自动目标识别技术的发展中起着非常重要的作用。例如，人脸识别界受益于面部识别技术(FERET)数据库，该数据库包括2 413幅静止人脸图像，代表856个人。庞大的数据集推动了新算法的发展。这些独立的评估提供了对技术现状的公正评估，并确定了最有希望的方法。此外，从Feret项目开始到2006年的人脸识别供应商测试(FRVT)，这些评估记录了性能上的两个数量级的改善。在许多其他物体识别任务中也作出了类似的努力。

【补充】 手写识别能够使用户按照最自然、最方便的输入方式进行文字输入，易学易用，可取代键盘或者鼠标。手写识别属于文字识别和模式识别范畴，文字识别从识别过程来说分成脱机识别（off-line）和联机识别（on-line) 两大类，从识别对象来说又分成手写体识别和印刷体识别 两大类。

然而，目前还没有大规模的手写体汉字数据库公开。 目前最先进的脱机手写体汉字数据库有ETL字库、KAIST数据库、JEITA数据库和IRTI数据库.ETL字符数据库是在日本电子工业发展协会、大学和其他研究机构的合作下，在Electrotechnical Laboratory收集的。ETL1-ETL9包含大约120万个手写和机器打印的字符图像，其包括用于字符识别研究的日语、中文、拉丁语和数字字符。数据库的字符图像是通过扫描OCR(光学字符识别) 或用扫描仪扫描汉字印刷版获得的。所有的ETL1-ETL9都是灰度图像数据。ETL8和ETL9是二值化图像，并且对公众开放。ETL9数据集涵盖了2965个中文字符和71个平假名，每类由400名书写者书写200例。ETL8数据集涵盖了881类中文字符和75个平假名，每类由1600名书写者书写160例。字符图像有60×60，64×63，72×76和128×127像素的版本。字符图像文件由一个以上的记录组成，该记录具有字符图像和具有正确代码的ID信息。KAIST Hanja1和KAIST Hanjia2是由Korea Advanced Institute of Science and Technology此机构收集的。Hanja 1数据库有783个最常用的类。每类包含200名书写者在实验环境中收集的200份样本。Hanja 2数据库有从实际文件中收集的1 309个样本。Hanja 2数据库中的样本数量随类的不同而不同。Hanja 1的图像质量相当干净，而Hanja 2数据库则非常嘈杂。JEITA-HP最初由Hewlett Packard日本公司收集，后来由JEITA(Japan Electronics and Information Technology Association)发布。它由两个数据集组成：数据集A(480个书写者)和数据集B(100个书写者)。一般来说，数据集B比数据集A写得更整洁，整个数据库由3214个字符类组成(2965汉字，82 平假名，10个数字，157个其他字符(英文字母表、katakana和符号)。最常见的平假名和数字出现在每个文件中两次。每个字符模式的分辨率为64×64像素，编码为512字节。ITRI是由Industrial Technology Research Institute（中国，台湾）收集的。它由5401个手写汉字类别，每类有200例。

【补充】 OCR （Optical Character Recognition，光学字符识别） 是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

在这篇文章里，我们提出了一个新的大规模的手写汉字数据集，HCL2000 (Handwritten Character Library 2000)方便手写体中文识别研究。HCL 2000中的“2000”一词表示该数据库包含2000年收集的2000个样本。中国863高技术项目支持HCL2000的收集工作。HCL 2000的收集是由中国政府通过中国863高科技项目资助的。与现有的手写体汉字数据库不同，HCL 2000具有两个特点：一是数量庞大，图像样本总数为3755000；二是包含了书写者的信息，可以帮助研究者研究不同书写者的书写风格和书写者身份。 书写者的资料包括年龄、职业、性别、受教育程度、地址等，详细的描述了HCL 2000的系统模型。我们讨论了基于HCL 2000的评估方法，并给出了三种算法的性能作为基线。HCL 2000过去曾被少数研究人员用于评估其系统。为了促进手写体汉字识别，我们决定在本文发表后发布数据库。为了研究目的，我们将为研究团体提供免费的数据库。

2 The System Model

我们使用一个系统模型来控制HCL 2000中的信息，它不仅包含汉字图像，而且还包含书写者的信息。该模型提供了一种管理两个子数据库的机制。图1说明了系统数据库模型。HCL 2000包括两个子数据库，一个是手写汉字样本数据库，另一个是书写者信息库。为了方便地使用这两个数据库，分别建立了两个管理系统。字符样本数据库的用户在浏览汉字图像时，可以通过访问作者的信息来查询“谁写了这些字符”；用户还可以通过在浏览书写者的信息时查询汉字图像数据库来查询“书写者的写作风格如何”。通过使用管理系统，用户可以查看作者的所有字符示例(如图2.(B)所示)，或某些作者的所有字符样本，或作者的选定字符或某些作者的选定字符(如图2.(A)所示)。

【补充】 HCL2000数据集实际上是包含两个子数据集的，一个是手写汉字样本数据库，另一个是书写者信息库。这就建立了多种关系或者说是方向，举个栗子：同一书写者的不同汉字（笔迹问题），不同书写者的同一汉字，对书写者汉字书写的影响因素等等。

2.1. The Handwritten Chinese Character Samples Database

字符样本由不同的作者组织并存储在PID(个人识别)文件中，如图3(A)所示，同一作者编写的样本按节码顺序排列，如图3(B)所示。PID文件的文件格式定义为文件头和字符示例。每个文件中都有一个512字节的文件头，用于包含PID、水平和垂直方向的扫描精度、整个文件的大小等信息。每个中文字符示例描述为64×64二进制像素，大小为512字节，如图3(B)所示。

2.2. The Writers’ Information Database

除了作者的PID信息外，作者的信息还包括性别、年龄、职业、教育程度、书写工具等。所有书写者的信息都以512字节的速度存储在文件头中，表1列出了文件头的详细定义。
我们假设笔迹风格因文化程度、年龄和职业不同而不同，因此，不同背景的书写者被邀请按比例书写样本。我们的研究表明，受教育程度较高的作家书写性格更为正式，而同一职业的书写者则具有相似的写作风格。表2显示了书写者受教育的比例，表3显示了书写者年龄的比例，表4显示了HCL2000书写者职业的比例。

3 The Evaluation Based on Writers’ Information

我们研究了错误率与书写者信息之间的关系，并发现了一些有趣的结果。我们使用700组标记从xx 001到xx 700的做为测试集，其余的标记从hh 001到hh 300用做于训练集。识别过程分为两个步骤。首先，对输入图像进行预处理，根据方向元素特征(DEF)对输入图像进行粗略分类，在余弦变换的基础上，选取30个候选图像作为分类器。首先根据作者的教育程度得出样本的误差率，如表5所示，错误率随受教育程度的增加而降低，而对以上本科学生的误差率则随着教育程度的增加而增加，因为样本数大，且写入样本不严重。图4是两种教育程度的样本，图4(A)显示技术学院科目编书写的一些例子，图4(B)是大学本科生书写的例子。表6显示了不同年龄段的错误率，40多岁的错误率最低，因为书写者的写作风格是稳定的，而且他们对这一项工作较为严谨。另一方面，二十多岁的书写者的笔迹比较随意，故而出错率最高。图5显示两个不同年龄的样本，图5(A)是来自40多岁的书写者的样本，图5(B)是来自20多岁的书写者的样本，我们可以看到，40多岁的人的写作风格相较于其他年龄段的比较正式。
在中国，最难的书写方式之一是医生的药方，因为他们的处方写得很粗糙，甚至人类也很难辨认，实验结果证实了这一点。在所有职业中，医生的误差率最高。一些结果如表7所示，科学家和教师的错误率很低，因为他们的写作风格更正式。

4 Evaluation on HCL2000

为了评估HCL2000，我们考虑了类似汉字的非线性流形结构，并提出了一种结合全局信息和局部判别线索的级联框架对3755个手写体汉字类进行分类。 首先利用最近邻分类器(NN)求出不同词的相似度，然后进行线性判别分析(LDA)、局部保持投影(LPP)和边缘Fisher特征分析(MFA)【Baseline】。识别过程分为两个步骤。 首先，由NN分类器对输入图像进行预处理和分类，将其分配到字符组中。然后我们使用梯度特征进行进一步的鉴别。梯度特征矢量随后分别被变换到具有类标签信息的LPP、LDR和MFA表示。为了进行公平的比较，两个LPP都将k=20设为构造图的参数，并在以下所有实验中使用了简单的加权方案。对于MFA，其参数K1=3和K2=20，一个组中相似字符的最大数目为50。HCL 2000的结果如图6所示。

【补充】线性判别分析（Linear Discriminate Analysis, LDA） 是一种可作为特征抽取的技术，可以提高数据分析过程中的计算效率，对于不适用与正则化的模型，可以降低因维度灾难带来的过拟合，是一种监督算法。主要思想：给定训练集样例，设法将样例投影到一条直线上，使得同类样例的投影尽可能接近，异类样例的投影点尽可能远离。详情可以参见大佬的博客。

在实验结果的基础上，MFA、LPP优于LPP。 由于相同类的手写字符彼此靠近地映射，所以Ld产生一些有意义的投影。但它只发现了欧氏结构，不能揭示手写字符所在的底层非线性流形。因此其鉴别能力有限。LPP和MFA是一种有监督的方法，可以保存局部邻域信息。它们的识别能力比LDA好，因为类似的手写字符包含变化和不同类别之间有显著的重叠。

5 Conclusions

本文介绍了一个大规模的手写体汉字数据库HCL 2000。据我们所知，HCL 2000是迄今为止拥有书写者信息最多的汉字手写数据库。它包含了3755个常用的简体汉字，由1000个不同的作家写成。将书写者的信息纳入数据库，以便于对年龄、职业、性别和教育等不同背景的作家进行分组测试。我们研究了不同作家群体的书写者风格特征。我们使用三种不同的算法作为基线来评估HCL 2000数据库。我们决定将该数据库与本文一起发布，并将其免费用于研究目的。

6 Acknowledgment

本工作部分由国家自然科学基金(自然科学基金)资助，赠款号为60675001，111项目(B 08004)，863高科技项目，赠款号为2007a01z417。

PRIS-SCMonkey

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
【论文翻译】HCL2000—A Handwritten Chinese Character Database

HCL2000—A Large-scale Handwritten Chinese Character Database for Handwritten Character RecognitionHCL2000—一个大型的手写汉字识别的数据集【摘要】本文提出了一种大规模离线手写汉字数据库-HCL2000，供研究界使用。该数据库包含3,755个经常使用的简体中文字符，由1,000名不同的受试者...
复制链接

扫一扫