Y uxian Meng, Wei Wu, Fei Wang, Xiaoya Li, Ping Nie, Fan Yin, Muyu Li, Qinghong Han, Xiaofei Sun, and Jiwei Li. 2019. Glyce: Glyph-vectors for chinese character representations. In Advances in Neural Information Processing Systems, volume 32, pages 2746–2757. Curran Associates, Inc.
Abstract
像中文这样的语标语言的 NLP 任务应该受益于这些语言中的字形信息的使用
三个创新
1)利用中国历史文字(如铜器、篆书、繁体等)丰富文字的象形证据;
2)我们设计了适合汉字图像处理的CNN结构(称为tianzege-CNN);
- 我们在多任务学习设置中使用图像分类作为辅助任务,以提高模型的泛化能力。
Introduction
已有学者对中文字形进行研究
已有学者对利用视觉CNN研究中文字形
效果不好的原因:
- 随着历史的推移,汉字由繁到简,流失了很多象形信息
- 没有正确使用CNN结构,与传统cnn使用的800*600图片不同,字符图片一般为12 *12,需要不同的CNN架构进行捕捉
- 没有使用调节函数来防止过度拟合和提高模型的泛化能力
提出了 GLYCE,即用于汉字表示的 GLYph 字形向量
将汉字视为图像,并使用 CNN 来获得它们的表示
- 历史