【文献阅读】Glyce: Glyph-vectors for Chinese Character Representations

九筒-

于 2022-03-21 08:46:28 发布

阅读量380

点赞数

分类专栏：文献阅读文章标签： nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44343282/article/details/123626582

版权

Y uxian Meng, Wei Wu, Fei Wang, Xiaoya Li, Ping Nie, Fan Yin, Muyu Li, Qinghong Han, Xiaofei Sun, and Jiwei Li. 2019. Glyce: Glyph-vectors for chinese character representations. In Advances in Neural Information Processing Systems, volume 32, pages 2746–2757. Curran Associates, Inc.

Abstract

像中文这样的语标语言的 NLP 任务应该受益于这些语言中的字形信息的使用

三个创新
1）利用中国历史文字（如铜器、篆书、繁体等）丰富文字的象形证据；
2）我们设计了适合汉字图像处理的CNN结构（称为tianzege-CNN）；

我们在多任务学习设置中使用图像分类作为辅助任务，以提高模型的泛化能力。

Introduction

已有学者对中文字形进行研究
已有学者对利用视觉CNN研究中文字形
效果不好的原因：

随着历史的推移，汉字由繁到简，流失了很多象形信息
没有正确使用CNN结构，与传统cnn使用的800*600图片不同，字符图片一般为12 *12，需要不同的CNN架构进行捕捉
没有使用调节函数来防止过度拟合和提高模型的泛化能力

提出了 GLYCE，即用于汉字表示的 GLYph 字形向量
将汉字视为图像，并使用 CNN 来获得它们的表示

历史

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。