1. one-hot 表示形式的缺点:
a. 一般任务词汇量至少1w+,维度灾难
b. 没有考虑词之间的联系,“词汇鸿沟”
2. 小概念术语: word embedding 和 word2vec。 Word embedding 是 词嵌入,是所有word represent 方法的总称,而word2vec只是其中的一种方式。
3. word2vec 一般常用的两个工具,分别是google的word2vec(gensim),以及 facebook的 fastText,目前中文用的比较多的是 fasttext. gensim 可以直接pip安装,而fastText需要下载源码安装。
4. word2vec的主要思想:将当前单词与context单词建立联系,当语料足够多时就可以学习语义相似的单词,否则只能学习到用法相似的单词,比如,我爱吃 XXX 口味的 XX。
下面几点是关于word2vec训练的一些注意点:
以fastText中的无监督训练函数为例,详细介绍各个参数的含义:
from fastText import train_unsupervised
model = train_unsupervised(input, model='skipgram', lr=0.05,
dim=100