Y uxian Meng, Wei Wu, Fei Wang, Xiaoya Li, Ping Nie, Fan Yin, Muyu Li, Qinghong Han, Xiaofei Sun, and Jiwei Li. 2019. Glyce: Glyph-vectors for chinese character representations. In Advances in Neural Information Processing Systems, volume 32, pages 2746–2757. Curran Associates, Inc.
Abstract
像中文这样的语标语言的 NLP 任务应该受益于这些语言中的字形信息的使用
三个创新
1)利用中国历史文字(如铜器、篆书、繁体等)丰富文字的象形证据;
2)我们设计了适合汉字图像处理的CNN结构(称为tianzege-CNN);
- 我们在多任务学习设置中使用图像分类作为辅助任务,以提高模型的泛化能力。
Introduction
已有学者对中文字形进行研究
已有学者对利用视觉CNN研究中文字形
效果不好的原因:
- 随着历史的推移,汉字由繁到简,流失了很多象形信息
- 没有正确使用CNN结构,与传统cnn使用的800*600图片不同,字符图片一般为12 *12,需要不同的CNN架构进行捕捉
- 没有使用调节函数来防止过度拟合和提高模型的泛化能力
提出了 GLYCE,即用于汉字表示的 GLYph 字形向量
将汉字视为图像,并使用 CNN 来获得它们的表示
- 历史和当代汉字字体结合,使用不同风格的字体来丰富象形文字(金文、隶书、篆书、繁体、草书)
- 量身定制的 Tianzige-CNN (田字格) 结构
- 用多任务学习方法,通过添加图像分类损失函数来提高模型的泛化能力。
字形Glyce
针对问题一(随着历史的推移,汉字由繁到简,流失了很多象形信息),这两种策略都类似于计算机视觉中广泛使用的数据增强策略。
- 不同历史时期的文字通常在形状上非常不同,有助于模型整合来自各种来源的象形文字证据
- 不同写作风格的脚本有助于提高模型的泛化能力
针对问题二(没有正确使用CNN结构)
通过一次卷积和最大池化,将12*12的汉字图片转换为2 * 2的田字格形式
针对问题三(防止过拟合)
为了防止过拟合,最后一步没有使用常规的卷积方法,而是采用群卷积
田字格-卷积
针对字符图像的CNN存在的问题:
- 字符图像的尺寸相对较小:Imagenet 图像的尺寸通常为 800600 的规模,而汉字图像的尺寸明显更小,通常为 1212 的比例;
- 缺乏训练样例:imageNet 数据集上的分类使用了数千万张不同的图像。相比之下,只有大约 10,000 个不同的汉字。
为了解决这些问题,我们提出了田字格-CNN 结构,该结构专为汉字建模而设计,如图 1 所示。
模型结构:
- 输入图像 ximage 首先通过内核大小为 5 的卷积层和输出通道 1024 以捕获较低级别的图形特征。
- 然后将内核大小为 4 的最大池化应用于特征图,将分辨率从 8 × 8 降低到 2 × 2。这种2×2的天字格结构呈现了汉字中部首的排列方式以及汉字的书写顺序。
- 最后,我们应用组卷积 [Krizhevsky et al., 2012, Zhang et al., 2017] 而不是传统的卷积操作将天字格网格映射到最终输出。组卷积滤波器比它们的正常对应物小得多,因此不太容易过度拟合。
- 将模型从单个脚本调整为多个脚本相当容易,只需将输入从 2D(即 dfont × dfont)更改为 3D(即 dfont × dfont × Nscript)即可实现,其中 dfont 表示字体size 和 Nscript 我们使用的脚本数量。
字形信息与bert结合
字形嵌入可以直接输出到下游模型,例如 RNN、LSTM、转换器。
组合的概述如图 2 所示。该模型由四层组成:BERT 层、字形层、Glyce-BERT 层和特定任务的输出层。
输入句子
字符嵌入:采用bert计算句子中每个token
字形嵌入:采用tianzige-CNN
Glyce-bert:位置嵌入+字形嵌入+bert的字符嵌入
Task
单句分类对于文本分类任务,要为整个句子预测单个标签。在 BERT 模型中,BERT 的最后一层中 CLS 令牌的表示被输出到 softmax 层进行预测。我们采用了类似的策略,其中任务特定层中 CLS 令牌的表示被馈送到 softmax 层以预测标签。