论文阅读笔记：Glyce: Glyph-vectors for Chinese Character Representations

最新推荐文章于 2022-03-21 08:46:28 发布

洛洛洛洛洛洛洛

最新推荐文章于 2022-03-21 08:46:28 发布

阅读量767

点赞数

分类专栏：论文文章标签： nlp

本文链接：https://blog.csdn.net/weixin_44740082/article/details/91347767

版权

文章介绍了Glyce，一种利用中文字形信息的字符向量表示方法，旨在提升中文NLP任务的性能。通过结合历史和现代字体，定制的田字格CNN结构，以及图像分类辅助任务，Glyce在13个NLP任务上实现了SOTA。该方法通过字符和词向量的融合，提供了更丰富的语义信息。

摘要由CSDN通过智能技术生成

香侬科技提出了一种基于中文字形的向量表示形式：Glyce，基于Glyce的模型在13个中文NLP任务上达到了SOTA.

摘要：

直觉上，字形信息对于中文这样的表意文字上进行的nlp任务会有很多帮助，但是由于1）象形文字缺乏丰富的象形证据，2）现有的cv模型缺乏针对文字数据的泛化能力，所以，有效的利用这部分信息的方法还有待探索。

在这篇文章中，我们通过提出Glyce：针对中文字符的字符向量来解决上述问题，主要创新有以下三点：1）充分利用各个时期的中文字体（青铜器文字、篆书、繁体字等）以及各种风格的字体（草书、隶书）；2）针对中文字符的图像处理提出一种特制的CNN架构；3）在多任务学习设置中，利用图像分类作为辅助分类任务开提高模型的泛化能力。

这篇文章在13个中文NLP任务上都取得了SOTA的表现：(1) 字级别语言模型 (2) 词级别语言模型 (3) 中文分词 (4) 命名实体识别 (5) 词性标注 (6) 句法依存分析 (7) 语义决策标注 (8) 语义相似度 (9) 意图识别 (10) 情感分析 (11) 机器翻译 (12) 文本分类 (13) 篇章分析。

1.简介：

中文可以分成表意文字（日，表示太阳）和表音文字（青，睛），在汉朝时期，说文解字就采用字形所谓索引，这种方式今天还在沿用。由于许多汉字是由图片演化而来的，如下图，所以汉字的形状可以提供丰富信息。

在中文nlp任务上，很少有人利用字形信息，也有一些研究利用五笔结构来研究中文文字，取得了一些进展，但是由于五笔结构是随机编码的，所以并不能表示深层次的标识信息。

也有人利用cnn结构对字形信息进行研究，但是并没有产生良好的效果，原因可能如下：1）使用的简体文字进行研究，而简体文字在演变过程中失去了大部分的字形信息。汉字演变过程如下所示；2）使用的cnn结构不合适，由于字符的尺寸偏小，而现有的cnn模型通常用来处理较大的图片；3）数据少，汉字只有大约10000个文字。