香侬科技提出了一种基于中文字形的向量表示形式:Glyce,基于Glyce的模型在13个中文NLP任务上达到了SOTA.
摘要:
直觉上,字形信息对于中文这样的表意文字上进行的nlp任务会有很多帮助,但是由于1)象形文字缺乏丰富的象形证据,2)现有的cv模型缺乏针对文字数据的泛化能力,所以,有效的利用这部分信息的方法还有待探索。
在这篇文章中,我们通过提出Glyce:针对中文字符的字符向量来解决上述问题,主要创新有以下三点:1)充分利用各个时期的中文字体(青铜器文字、篆书、繁体字等)以及各种风格的字体(草书、隶书);2)针对中文字符的图像处理提出一种特制的CNN架构 ;3)在多任务学习设置中,利用图像分类作为辅助分类任务开提高模型的泛化能力。
这篇文章在13个中文NLP任务上都取得了SOTA的表现:(1) 字级别语言模型 (2) 词级别语言模型 (3) 中文分词 (4) 命名实体识别 (5) 词性标注 (6) 句法依存分析 (7) 语义决策标注 (8) 语义相似度 (9) 意图识别 (10) 情感分析 (11) 机器翻译 (12) 文本分类 (13) 篇章分析。
1.简介:
中文可以分成表意文字(日,表示太阳)和表音文字(青,睛),在汉朝时期,说文解字就采用字形所谓索引,这种方式今天还在沿用。由于许多汉字是由图片演化而来的,如下图,所以汉字的形状可以提供丰富信息。
在中文nlp任务上,很少有人利用字形信息,也有一些研究利用五笔结构来研究中文文字,取得了一些进展,但是由于五笔结构是随机编码的,所以并不能表示深层次的标识信息。
也有人利用cnn结构对字形信息进行研究,但是并没有产生良好的效果,原因可能如下:1)使用的简体文字进行研究,而简体文字在演变过程中失去了大部分的字形信息。汉字演变过程如下所示;2)使用的cnn结构不合适,由于字符的尺寸偏小,而现有的cnn模型通常用来处理较大的图片;3)数据少,汉字只有大约10000个文字。
本文将中文字符看作图片,用cnn来抽取特征,针对以上问题,本文采用了以下解决办法:
1.采用历史文字和当代文字(如青铜器文字、隶书、篆书、繁体中文等)的组合,丰富字符图像的象形信息,以及不同书写风格的文字(草书),提高模型的泛化能力。
2.提出符合中文字形的Tianzige-CNN(田字格)构架。
3.采用多任务学习方法,通过增加图像分类损失函数来提高模型的泛化能力。
3 Glyce
1.使用的数据
汉字的演化过程是从最初的易于画转变为易于写,在这个过程中,不可避免的失去大量文字中蕴含的字形信息,因此为了丰富文字信息,使用不同时期的文字&#