cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information阅读笔记_learning chinese word embeddings from stroke, stru-CSDN博客

本文链接：https://blog.csdn.net/yang_daxia/article/details/86015098

作者提出了一种基于n元笔画的中文词嵌入，可以有效的刻画中文的语义特征以及形态学特征。相对于现存的word2Vec，Glove,CWE,JWE以及GWE，cw2vec在语义分析，文本分类，命名实体识别任务中表现更好。

1.引言

与onehot词表征不同，低维的词嵌入可以更好的刻画自然语言的语义特征，广泛应用于词性分类，命名实体识别，机器翻译等领域。现存的方法主要是词级别的基于上下文信息学习发词表征，有学者研究sub-word级别的词表征应用于英语，德语，等，但是无法直接应用于中文中。

中文词的字符比英文更少，有学者研究了词级别的中文词表征，但是无法完全刻画词义，基于偏旁和组成的词表征噪声较大。如智的偏旁‘日’很难表达其智慧的意思，成分矢，口，日也一样。作者首次提出基于笔画级别的中文词表征。

2.cw2vec 模型

每个字分为5中笔画，ID为1-5如下图所示

通过如下操作将词转化为n元笔画模型。

2.2目标函数

词之间的相似度计算如下：

q为当前词语对应的一个n元笔画向量，而c是其对应的上下文词语的词向量。这项技术将当前词语拆解为其对应的n元笔画，但保留每一个上下文词语不进行拆解。S(w)为词语w所对应的n元笔画的集合。预测目标词的概率为

由于分母中的词汇量V太大，训练速度太慢，所以采用负采样的技术，选取部分的上下文作为负样本。具体可以参考：https://blog.csdn.net/wizardforcel/article/details/84075703。于是目标函数为：

其中，W和C分别为当前词语和上下文词语，σ是sigmoid函数，T(w)是当前词语划窗内的所有词语集合，D是训练语料的全部文本。C'为随机选取的词语，称为“负样例”，λ是负样例的个数，而Ec~p则表示负样例C'按照词频分布进行的采样，其中语料中出现次数越多的词语越容易被采样到。负采样分布的指数为3/4。

3.实验

3.1数据

语料来自中文维基百科，通过opencc工具把繁体字转化为简体字，通过ansj工具对语句进行分词。通过juhe DATA API在新华字典网站上爬取汉字的笔画顺序。

3.2基准和度量

词相似性任务：该任务用于评价模型刻画两个相邻词语义相似性的能力。在wordsim-240和wordsin-296数据集上使用秩相关系数来评价次嵌入的质量。

词推理任务：给定a-->b，和c推理c-->?用于评价模型推理语义相关性能力。使用3Cosadd和3CosMul函数推理第四个词。

文本分类任务：用于评价词嵌入模型在下游任务的表现。作者下载复旦语料库，选取其中5个话题，70%用于训练，30%用于测试。使用LIBLINEAR分类器，对文本分类。

命名实体识别：也是测试下游任务。使用BosonNLP NER 6C数据集，包含时间、地点、人、组织、公式、产品以及其他七类。70%训练，30%测试。

定性评价：作者给定目标词的前10个相近词进行定性分析。

3.3baseline算法

word2Vec（包含skip-gram和cbow）:字级别的

Glove：字级别

CWE：中文字符级别

GWE：中文像素级别通过汉字的图像进行卷积提取特征

JWE：组成级别

为了统一比较，所以的词嵌入维度一致，训练集去除出现频率小于10的字，上下文窗大小以及负采样为5。

4.实验结果

4.1词相似和词推理，文本分类和命名实体识别

词嵌入为300维，结果为秩相关系数x100，结果表明基于中文的CWE，GWE以及JWE表现总体比word2vec以及Glove好，cw2vec表现超过了所有的模型！！！！！在推理任务提高了4个百分点。

4.3表现VS维度

结果如图所示，cw2vec同样打败了所有模型，在300维时表现最好。

4.4表现VS训练数据集大小

作者还研究了小数据集的影响，选取训练集的20%进行训练，测试结果如下

skipgram, cbow和GloVe算法由于没有利用中文的特性信息进行加强，所以在小语料上表现较差，而其余四个算法取得了不错的效果。cw2vec表现最好，CWE表现次好，两者的鲁棒性好，可以有效刻画子词的信息。

4.5定性分析

作者选取水污染和孙悟空做案例分析。第一个是环境相关的“水污染”，然后根据词向量利用向量夹角余弦找到与其语义最接近的词语。GWE找到了一些和“污”字相关的词语，比如“污泥”，“污渍”和“污垢”，而JWE则更加强调后两个字“污染”GloVe找到了一些奇怪的相近词语，比如“循环系统”，“神经系统”。CWE找到的相近词语均包含“水”和“污”这两个字，猜测是由于其利用汉字信息直接进行词向量加强的原因。此外，只有cw2vec找到了“水质”这个相关词语，分析认为是由于n元笔画和上下文信息对词向量共同作用的结果。第二个例子，特别选择了“孙悟空”这个词语，该角色出现在中国的名著《西游记》和知名日本动漫《七龙珠》中，cw2vec找到的均为相关的角色或著作名称。