word2vec 几点理解

本文对word2vec的训练方法进行了深入思考,疑问其是否适用于所有任务,特别是skipgram对相似任务的效果。同时,讨论了在特定领域内是否需要自定义word2vec模型。还提出了使用Hash方法结合ReLU实现稀疏表达,以模拟hash函数在one hot编码中的应用。
摘要由CSDN通过智能技术生成
1. one-hot 表示形式的缺点:
    a. 一般任务词汇量至少1w+,维度灾难
    b. 没有考虑词之间的联系,“词汇鸿沟”
2. 小概念术语: word embedding 和  word2vec。 Word embedding 是 词嵌入,是所有word represent 方法的总称,而word2vec只是其中的一种方式。
3. word2vec 一般常用的两个工具,分别是google的word2vec(gensim),以及 facebook的 fastText,目前中文用的比较多的是 fasttext.  gensim 可以直接pip安装,而fastText需要下载源码安装。
4. word2vec的主要思想:将当前单词与context单词建立联系,当语料足够多时就可以学习语义相似的单词,否则只能学习到用法相似的单词,比如,我爱吃 XXX 口味的 XX。
下面几点是关于word2vec训练的一些注意点:
以fastText中的无监督训练函数为例,详细介绍各个参数的含义:

from fastText import train_unsupervised
model = train_unsupervised(input, model='skipgram', lr=0.05, 
                            dim=100
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值