论文链接:Drawing and Recognizing Chinese Characters with Recurrent Neural Network
一、文章标题
从标题我们可以看出本文的研究内容是采用递归神经网络实现的中文字符读写的基本操作,我们可以联想到对中文字符的读取是不是识别,那么写又是什么呢?什么又是递归神经网络?
二、看摘要
Previous research has mainly focused onrecognizing handwritten Chinese characters. However, recognition is only oneaspect for understanding a language, another challenging and interesting taskis to teach a machine to automatically write (pictographic) Chinese characters.
这里回答了以上的第两个问题:首先是对文字的识别,其次是教会计算机自动的去写中文字符。
In this paper, we propose a framework by using the recurrent neural network(RNN) as both a discriminative model for recognizing Chinese characters and agenerative model for drawing (generating) Chinese characters.
这个网络既可以用于识别也可以用于训练计算机去写文字,第一感觉这个递归神经网络好牛逼,那他究竟是什么鬼呢?
To recognizeChinese characters, previous methods usually adopt the convolutional neuralnetwork (CNN) models which require transforming the online handwriting trajectory into image-like representations. Instead, our RNN based approach is an end-to-end system which directly deals with the sequential structure and does not require any domain-specific knowledge.
这里通过CNN和RNN的对比说明了,CNN在做文字识别的时候是将手写的字迹转化为图像进一步处理;但是,基于RNN的方法就不需要什么预处理和特定领域的知识了。
三、介绍
For the task of automatic recognition of handwritten Chinese characters, there are two main categories of approaches:online and offline methods. With the success of deep learn-ing [5], [6], the convolutional neural network (CNN) [7] has been widely applied for handwriting recognition. The strong priori knowledge of convolution makes the CNN a powerful tool for image classification. Since the offline characters are naturally represented as scanned images, it is natural and works well to apply CNNs to the task of offline recognition [8],[9], [10], [11]. However, in order to apply CNNs to online characters, the online handwriting trajectory should firstly be transformed to some image-like representations, such as the AMAP [12], the path signature maps [13] or the directional feature maps [14].
对于文字的识别有两种类型:离线的和在线的。对于离线的文字(本身就已经是图像了)识别基本上还是采用了CNN,因为它具有很强大的先验知识和图像分类功能,那么将CNN应用于在线的识别,就需要第一步将其转化为图像了。
we propose to use recurrent neural networks (RNN) combined with bidirectional long short term memory (LSTM) [15], [16] and gated recurrent unit (GRU) [17] for online handwritten Chinese character recognition.
作者提出采用递归神经网络(RNN)、长期短记忆网络(LSTM)、封闭的复发性单元(GRU)进行文字的识别
四、手写中文字符的呈现
实际上,人们在书写文字的同时可以用一个有序列的数据集去记录笔尖所在的坐标位置和笔头当前所移动的方向。
可以这样表示:
其中Xi、Yi代表了笔尖所在的位置点,Si代表了移动的方向。
上图是三个中文字符的手写描述,每种颜色代表一笔,数字代表文字书写的顺序。
下面试对文字做的一些基本处理:
A、移除冗余
不同的人有不同的书写习惯和书写的字体,消除文字中的冗余点显得比较必要。
B、坐标标准化
另一个影响就是字体的大小对识别有一定的影响,我们需要调整字体的间距。
C、阐述
在做了以上的基本操作以后,留下来的点将会代表更多的信息,这对于提高速度和减少依赖有很大的作用。
五、对识别模型的简单介绍
A、识别的呈现
通过对等式(1)的处理,文中采用6个参数的等式来代表连接两个点的一条直线
第一二个参数代表了线的起始点,三四个参数代表了线的移动的方向,五六个参数代表了笔尖的状态
C、长期短记忆网络
F、规则化和数据展开
G、初始化和优化
六、字符识别实验
A、数据库
数据库采用的是2013年ICDAR中文字符识别竞赛中的文字库,现在已经更新到了第三个版本。
B、实现细节
C、实验结果
D、LSTM和GRU的比较
E、不同深度的比较
G、与其它先进的方法进行比较
表格1比较了不同的网络架构对于在线文字识别在众多参数下的对比情况。
表2显示通过随机差值所得到的子序列在基于组合的决策上的测试精度
表3ICDAR历年比赛数据以及作者的实验数据对比
七、生成自动识别中文字符的模型
八、书写中文字符做的相关实验
这一实验过程包括:
A、数据库的选取
B、实现的细节
C、阐述训练过程
D、字符嵌入矩阵的性能
E、自动生成字符的相关阐述
F、是否识别的质量分析
具体过程此处不阐述,下面对文中在本章节所给出的图形进行简要说明。
这里展示了嵌入矩阵计算所得到的近邻文字,实际上在进行文字识别是以一种匹配精度进行度量,都会从这一系列的文字当中进行筛选。
这是自动生成不同类型文字的描述。每一行代表了一个特定的文字类别,其中每一种颜色都代表了该文字中的一个笔画。
这幅图中(a)表示在生成3755个文字的准确度。(b)表示了出现错误的情况,即生成的字符具有低的识别率。(c)中展示了生成的字符能够被很好的识别。
实际上,我认为这是对计算机的一种为难。在图(b)中,对于人类单独看这个字我也不一定能够准确的识别出这个汉字。
九、结论以及将来的工作
本篇文章涉及到了两个相近的任务,识别和书写文字,文章中得研究做出了相当好的成果。第一点:将来的发展在于识别RNN模型可以结合CTC,进行自由分割识别中文字符。第二点:将具有超强能力图像处理的CNNs和具有序列处理能力的RNNs结合起来使用提高字符识别的精度。
除了识别文字,这篇文章还讨论了自动书写中文的草书字体。实际上在研究中不仅可以供人类辨别还可以供机器识别。除了绘制字符,一个有趣的方向是使用建议的方法去实现区块用于合成中文草书字体。在文字识别和书写模型的关系上也是一个将来要研究的话题。