论文阅读笔记:Glyce: Glyph-vectors for Chinese Character Representations

文章介绍了Glyce,一种利用中文字形信息的字符向量表示方法,旨在提升中文NLP任务的性能。通过结合历史和现代字体,定制的田字格CNN结构,以及图像分类辅助任务,Glyce在13个NLP任务上实现了SOTA。该方法通过字符和词向量的融合,提供了更丰富的语义信息。
摘要由CSDN通过智能技术生成

香侬科技提出了一种基于中文字形的向量表示形式:Glyce,基于Glyce的模型在13个中文NLP任务上达到了SOTA.

摘要:

   直觉上,字形信息对于中文这样的表意文字上进行的nlp任务会有很多帮助,但是由于1)象形文字缺乏丰富的象形证据,2)现有的cv模型缺乏针对文字数据的泛化能力,所以,有效的利用这部分信息的方法还有待探索。

   在这篇文章中,我们通过提出Glyce:针对中文字符的字符向量来解决上述问题,主要创新有以下三点:1)充分利用各个时期的中文字体(青铜器文字、篆书、繁体字等)以及各种风格的字体(草书、隶书);2)针对中文字符的图像处理提出一种特制的CNN架构 ;3)在多任务学习设置中,利用图像分类作为辅助分类任务开提高模型的泛化能力。

   这篇文章在13个中文NLP任务上都取得了SOTA的表现:(1) 字级别语言模型 (2) 词级别语言模型 (3) 中文分词 (4) 命名实体识别 (5) 词性标注 (6) 句法依存分析 (7) 语义决策标注 (8) 语义相似度 (9) 意图识别 (10) 情感分析 (11) 机器翻译 (12) 文本分类 (13) 篇章分析。

1.简介:

  中文可以分成表意文字(日,表示太阳)和表音文字(青,睛),在汉朝时期,说文解字就采用字形所谓索引,这种方式今天还在沿用。由于许多汉字是由图片演化而来的,如下图,所以汉字的形状可以提供丰富信息。

   在中文nlp任务上,很少有人利用字形信息,也有一些研究利用五笔结构来研究中文文字,取得了一些进展,但是由于五笔结构是随机编码的,所以并不能表示深层次的标识信息。

也有人利用cnn结构对字形信息进行研究,但是并没有产生良好的效果,原因可能如下:1)使用的简体文字进行研究,而简体文字在演变过程中失去了大部分的字形信息。汉字演变过程如下所示;2)使用的cnn结构不合适,由于字符的尺寸偏小,而现有的cnn模型通常用来处理较大的图片;3)数据少,汉字只有大约10000个文字。

 

  本文将中文字符看作图片,用cnn来抽取特征,针对以上问题,本文采用了以下解决办法:

1.采用历史文字和当代文字(如青铜器文字、隶书、篆书、繁体中文等)的组合,丰富字符图像的象形信息,以及不同书写风格的文字(草书),提高模型的泛化能力。

2.提出符合中文字形的Tianzige-CNN(田字格)构架。

3.采用多任务学习方法,通过增加图像分类损失函数来提高模型的泛化能力。


3 Glyce

1.使用的数据


   汉字的演化过程是从最初的易于画转变为易于写,在这个过程中,不可避免的失去大量文字中蕴含的字形信息,因此为了丰富文字信息,使用不同时期的文字&#

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值