【文献阅读】Glyce: Glyph-vectors for Chinese Character Representations

Y uxian Meng, Wei Wu, Fei Wang, Xiaoya Li, Ping Nie, Fan Yin, Muyu Li, Qinghong Han, Xiaofei Sun, and Jiwei Li. 2019. Glyce: Glyph-vectors for chinese character representations. In Advances in Neural Information Processing Systems, volume 32, pages 2746–2757. Curran Associates, Inc.

Abstract

像中文这样的语标语言的 NLP 任务应该受益于这些语言中的字形信息的使用

三个创新
1)利用中国历史文字(如铜器、篆书、繁体等)丰富文字的象形证据;
2)我们设计了适合汉字图像处理的CNN结构(称为tianzege-CNN);

  1. 我们在多任务学习设置中使用图像分类作为辅助任务,以提高模型的泛化能力。

Introduction

已有学者对中文字形进行研究
已有学者对利用视觉CNN研究中文字形
效果不好的原因:

  1. 随着历史的推移,汉字由繁到简,流失了很多象形信息
  2. 没有正确使用CNN结构,与传统cnn使用的800*600图片不同,字符图片一般为12 *12,需要不同的CNN架构进行捕捉
  3. 没有使用调节函数来防止过度拟合和提高模型的泛化能力

提出了 GLYCE,即用于汉字表示的 GLYph 字形向量
将汉字视为图像,并使用 CNN 来获得它们的表示

  1. 历史和当代汉字字体结合,使用不同风格的字体来丰富象形文字(金文、隶书、篆书、繁体、草书)
  2. 量身定制的 Tianzige-CNN (田字格) 结构
  3. 用多任务学习方法,通过添加图像分类损失函数来提高模型的泛化能力。

字形Glyce

针对问题一(随着历史的推移,汉字由繁到简,流失了很多象形信息),这两种策略都类似于计算机视觉中广泛使用的数据增强策略。

  1. 不同历史时期的文字通常在形状上非常不同,有助于模型整合来自各种来源的象形文字证据
  2. 不同写作风格的脚本有助于提高模型的泛化能力

针对问题二(没有正确使用CNN结构)

通过一次卷积和最大池化,将12*12的汉字图片转换为2 * 2的田字格形式

针对问题三(防止过拟合)

为了防止过拟合,最后一步没有使用常规的卷积方法,而是采用群卷积

田字格-卷积

针对字符图像的CNN存在的问题:

  1. 字符图像的尺寸相对较小:Imagenet 图像的尺寸通常为 800600 的规模,而汉字图像的尺寸明显更小,通常为 1212 的比例;
  2. 缺乏训练样例:imageNet 数据集上的分类使用了数千万张不同的图像。相比之下,只有大约 10,000 个不同的汉字。

为了解决这些问题,我们提出了田字格-CNN 结构,该结构专为汉字建模而设计,如图 1 所示。

模型结构:

  1. 输入图像 ximage 首先通过内核大小为 5 的卷积层和输出通道 1024 以捕获较低级别的图形特征。
  2. 然后将内核大小为 4 的最大池化应用于特征图,将分辨率从 8 × 8 降低到 2 × 2。这种2×2的天字格结构呈现了汉字中部首的排列方式以及汉字的书写顺序。
  3. 最后,我们应用组卷积 [Krizhevsky et al., 2012, Zhang et al., 2017] 而不是传统的卷积操作将天字格网格映射到最终输出。组卷积滤波器比它们的正常对应物小得多,因此不太容易过度拟合。
  4. 将模型从单个脚本调整为多个脚本相当容易,只需将输入从 2D(即 dfont × dfont)更改为 3D(即 dfont × dfont × Nscript)即可实现,其中 dfont 表示字体size 和 Nscript 我们使用的脚本数量。

字形信息与bert结合

字形嵌入可以直接输出到下游模型,例如 RNN、LSTM、转换器。

组合的概述如图 2 所示。该模型由四层组成:BERT 层、字形层、Glyce-BERT 层和特定任务的输出层。

输入句子
字符嵌入:采用bert计算句子中每个token
字形嵌入:采用tianzige-CNN
Glyce-bert:位置嵌入+字形嵌入+bert的字符嵌入

Task

单句分类对于文本分类任务,要为整个句子预测单个标签。在 BERT 模型中,BERT 的最后一层中 CLS 令牌的表示被输出到 softmax 层进行预测。我们采用了类似的策略,其中任务特定层中 CLS 令牌的表示被馈送到 softmax 层以预测标签。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值