cw2vec: Learning Chinese Word Embeddings with Stroke n-gram Information阅读笔记

作者提出了一种基于n元笔画的中文词嵌入,可以有效的刻画中文的语义特征以及形态学特征。相对于现存的word2Vec,Glove,CWE,JWE以及GWE,cw2vec在语义分析,文本分类,命名实体识别任务中表现更好。

1.引言

与onehot词表征不同,低维的词嵌入可以更好的刻画自然语言的语义特征,广泛应用于词性分类,命名实体识别,机器翻译等领域。现存的方法主要是词级别的基于上下文信息学习发词表征,有学者研究sub-word级别的词表征应用于英语,德语,等,但是无法直接应用于中文中。

中文词的字符比英文更少,有学者研究了词级别的中文词表征,但是无法完全刻画词义,基于偏旁和组成的词表征噪声较大。如智的偏旁‘日’很难表达其智慧的意思,成分矢,口,日也一样。作者首次提出基于笔画级别的中文词表征。

2.cw2vec 模型

每个字分为5中笔画,ID为1-5如下图所示

通过如下操作将词转化为n元笔画模型。

2.2目标函数

词之间的相似度计算如下:

q为当前词语对应的一个n元笔画向量,而c是其对应的上下文词语的词向量。这项技术将当前词语拆解为其对应的n元笔画,但保留每一个上下文词语不进行拆解。S(w)为词语w所对应的n元笔画的集合。预测目标词的概率为

由于分母中的词汇量V太大,训练速度太慢,所以采用负采样的技术,选取部分的上下文作为负样本。具体可以参考:https://blog.csdn.net/wizardforcel/article/details/84075703。于是目标函数为:

其中,W和C分别为当前词语和上下文词语,σ是sigmoid函数,T(w)是当前词语划窗内的所有词语集合,D是训练语料的全部文本。C'为随机选取的词语,称为“负样例”,λ是负样例的个数,而Ec~p则表示负样例C'按照词频分布进行的采样,其中语料中出现次数越多的词语越容易被采样到。负采样分布的指数为3/4。

3.实验

3.1数据

语料来自中文维基百科,通过opencc工具把繁体字转化为简体字,通过ansj工具对语句进行分词。通过juhe DATA API在新华字典网站上爬取汉字的笔画顺序。

3.2基准和度量

词相似性任务:该任务用于评价模型刻画两个相邻词语义相似性的能力。在wordsim-240和wordsin-296数据集上使用秩相关系数来评价次嵌入的质量。

词推理任务:给定a-->b,和c推理c-->?用于评价模型推理语义相关性能力。使用3Cosadd和3CosMul函数推理第四个词。

文本分类任务:用于评价词嵌入模型在下游任务的表现。作者下载复旦语料库,选取其中5个话题,70%用于训练,30%用于测试。使用LIBLINEAR分类器,对文本分类。

命名实体识别:也是测试下游任务。使用BosonNLP NER 6C数据集,包含时间、地点、人、组织、公式、产品以及其他七类。70%训练,30%测试。

定性评价:作者给定目标词的前10个相近词进行定性分析。

3.3baseline算法

word2Vec(包含skip-gram和cbow):字级别的

Glove:字级别

CWE:中文字符级别

GWE:中文像素级别通过汉字的图像进行卷积提取特征

JWE:组成级别

为了统一比较,所以的词嵌入维度一致,训练集去除出现频率小于10的字,上下文窗大小以及负采样为5。

4.实验结果

4.1词相似和词推理,文本分类和命名实体识别

词嵌入为300维,结果为秩相关系数x100,结果表明基于中文的CWE,GWE以及JWE表现总体比word2vec以及Glove好,cw2vec表现超过了所有的模型!!!!!在推理任务提高了4个百分点。

4.3表现VS维度

结果如图所示,cw2vec同样打败了所有模型,在300维时表现最好。

4.4表现VS训练数据集大小

作者还研究了小数据集的影响,选取训练集的20%进行训练,测试结果如下

skipgram, cbow和GloVe算法由于没有利用中文的特性信息进行加强,所以在小语料上表现较差,而其余四个算法取得了不错的效果。cw2vec表现最好,CWE表现次好,两者的鲁棒性好,可以有效刻画子词的信息。

4.5定性分析

作者选取水污染和孙悟空做案例分析。第一个是环境相关的“水污染”,然后根据词向量利用向量夹角余弦找到与其语义最接近的词语。GWE找到了一些和“污”字相关的词语,比如“污泥”,“污渍”和“污垢”,而JWE则更加强调后两个字“污染”GloVe找到了一些奇怪的相近词语,比如“循环系统”,“神经系统”。CWE找到的相近词语均包含“水”和“污”这两个字,猜测是由于其利用汉字信息直接进行词向量加强的原因。此外,只有cw2vec找到了“水质”这个相关词语,分析认为是由于n元笔画和上下文信息对词向量共同作用的结果。第二个例子,特别选择了“孙悟空”这个词语,该角色出现在中国的名著《西游记》和知名日本动漫《七龙珠》中,cw2vec找到的均为相关的角色或著作名称。

5.相关工作与总结

作者在文中介绍了提取sub-word信息以及中文词嵌入的一些工作,还指出了模型的缺点,无法将一些字区分开如:土和士。

 

 

 

 

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

yang_daxia

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值