word2vec 几点理解

最新推荐文章于 2022-09-17 09:14:38 发布

jinmingz

最新推荐文章于 2022-09-17 09:14:38 发布

阅读量1.9k

点赞数

分类专栏： nlp

本文链接：https://blog.csdn.net/zjm750617105/article/details/81350934

版权

本文对word2vec的训练方法进行了深入思考，疑问其是否适用于所有任务，特别是skipgram对相似任务的效果。同时，讨论了在特定领域内是否需要自定义word2vec模型。还提出了使用Hash方法结合ReLU实现稀疏表达，以模拟hash函数在one hot编码中的应用。

摘要由CSDN通过智能技术生成

1. one-hot 表示形式的缺点：
    a. 一般任务词汇量至少1w+，维度灾难
    b. 没有考虑词之间的联系，“词汇鸿沟”
2. 小概念术语： word embedding 和  word2vec。 Word embedding 是 词嵌入，是所有word represent 方法的总称，而word2vec只是其中的一种方式。
3. word2vec 一般常用的两个工具，分别是google的word2vec（gensim），以及 facebook的 fastText，目前中文用的比较多的是 fasttext.  gensim 可以直接pip安装，而fastText需要下载源码安装。
4. word2vec的主要思想：将当前单词与context单词建立联系，当语料足够多时就可以学习语义相似的单词，否则只能学习到用法相似的单词，比如，我爱吃 XXX 口味的 XX。

下面几点是关于word2vec训练的一些注意点：
以fastText中的无监督训练函数为例，详细介绍各个参数的含义：

from fastText import train_unsupervised
model = train_unsupervised(input, model='skipgram', lr=0.05, 
                            dim=100