【文献阅读】Glyce: Glyph-vectors for Chinese Character Representations

Y uxian Meng, Wei Wu, Fei Wang, Xiaoya Li, Ping Nie, Fan Yin, Muyu Li, Qinghong Han, Xiaofei Sun, and Jiwei Li. 2019. Glyce: Glyph-vectors for chinese character representations. In Advances in Neural Information Processing Systems, volume 32, pages 2746–2757. Curran Associates, Inc.

Abstract

像中文这样的语标语言的 NLP 任务应该受益于这些语言中的字形信息的使用

三个创新
1)利用中国历史文字(如铜器、篆书、繁体等)丰富文字的象形证据;
2)我们设计了适合汉字图像处理的CNN结构(称为tianzege-CNN);

  1. 我们在多任务学习设置中使用图像分类作为辅助任务,以提高模型的泛化能力。

Introduction

已有学者对中文字形进行研究
已有学者对利用视觉CNN研究中文字形
效果不好的原因:

  1. 随着历史的推移,汉字由繁到简,流失了很多象形信息
  2. 没有正确使用CNN结构,与传统cnn使用的800*600图片不同,字符图片一般为12 *12,需要不同的CNN架构进行捕捉
  3. 没有使用调节函数来防止过度拟合和提高模型的泛化能力

提出了 GLYCE,即用于汉字表示的 GLYph 字形向量
将汉字视为图像,并使用 CNN 来获得它们的表示

  1. 历史
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值