Word2Vector介绍

本文介绍了Word2Vec词向量技术,包括其原理、CBOW和Skip-Gram模式,以及训练过程中的关键参数。重点讨论了窗口大小和负样本数量的影响,并提到了Gensim的增量训练方法应对新词的问题。
摘要由CSDN通过智能技术生成

Word2Vector 2013
word2vec也叫word embeddings,中文名“词向量”,google开源的一款用于词向量计算的工具,作用就是将自然语言中的字词转为计算机可以理解的稠密向量。在word2vec出现之前,自然语言处理经常把字词转为离散的单独的符号,也就是One-Hot Encoder,为高维稀疏向量。使用Vector Representations可以有效解决这个问题。Word2Vec可以将One-Hot Encoder转化为低维度的连续值的稠密向量,并且其中意思相近的词将被映射到向量空间中相近的位置。word2vec词向量可以较好地表达不同词之间的相似和类比关系

Word2Vec是一种将文本中的词进行嵌入(Embedding)的方法,而所谓嵌入,就是将各个词使用一个定长的向量来表示,Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。

word2vec主要分为CBOW(Continuous Bag of Words,连续词袋)和Skip-Gram(跳字模型)两种模式。
(1)CBOW是从原始语句推测目标字词;通过上下文推测目标词:A person who never input:a, who,never output label:person
(2)Skip-Gram正好相反,是从目标字词推测出原始语句。通过目标词预测上下文 input:person output label:a, who,never
CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。
可以推测,如果两个单词的上下文一样,那么意味着这两个单词也应该是相似的。通过这种方法,我们可以获得一个词的扩展词,即与其相似的词。

word2vec训练过程中的两个关键超参数是窗口大小和负样本的数量。

负例采样
较小的窗口大小(2-15),较大的窗口大小(15-50,甚至更多)
Gensim默认为5个负样本。

训练:
1.创建两个矩阵——Embedding矩阵和Context矩阵,这两个矩阵在我们的词汇表中嵌入了每个单词。随机值初始化这些矩阵。
2.计算输入嵌入与每个上下文嵌入的点积and sigmoid 。
3.停止训练过程,丢弃Context矩阵,并使用Embeddings矩阵作为下一项任务的已被训练好的嵌入。
4.增量训练:模型训练以后,会有新的语料,也就存在新词,这个时候新词用word2vec就得不到词向量,会报ovo(out vacbuary)的错误。需要重新训练模型,gensim就提供了一个很好的机制,就是增量训练,新词不用和旧词全部一起训练。

Word2Vec是一种用于将文本转换为向量表示的工具,它是通过训练一个神经网络模型来实现的。在Word2Vec的源码中,有几个主要的部分和过程。 首先,源码中包含了数据预处理的步骤。这个步骤包括将原始文本分割成单词,建立词汇表并为每个单词分配一个唯一的标识符。源码还负责将原始文本转换为训练样本,其中每个样本由一个输入单词和一个输出单词组成。 接下来,源码中定义了训练模型的结构和参数。该模型通常是一个两层的神经网络,其中包含一个隐藏层和一个输出层。隐藏层的节点数可以根据需求进行设置。训练模型中的参数包括学习率、迭代次数和训练样本的窗口大小等。 然后,源码中实现了模型的训练过程。训练过程基于输入和输出单词的样本对,通过对模型进行多次迭代来优化模型的参数。在每一次迭代的过程中,模型会根据当前输入单词预测输出单词,并计算预测结果与实际输出之间的误差。然后,模型会使用误差来更新参数,以提高模型的准确性。 最后,源码中还提供了用于将训练好的模型应用于新的文本数据的方法。通过载入训练好的模型参数,并使用这些参数来将新的文本转换为向量表示。 总的来说,Word2Vec的源码实现了一个能够将文本转为向量表示的工具,并通过训练神经网络模型来优化向量表示的准确性。通过了解源码,我们可以更好地理解Word2Vec的原理和实现过程,并且可以根据需要进行修改和扩展。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值