在gensim中,word2vec相关的API都在gensim.models.word2vec中,与算法相关的参数在 gensim.models.word2vec.Word2Vec中。其具体参数说明如下:(个人翻译,如有出入欢迎指正)
class Word2Vec(BaseWordEmbeddingsModel):
"""训练, 使用和评估https://code.google.com/p/word2vec/中描述的神经网络
一旦你训练完一个模型 (不再更新,仅查询)
只能在`~gensim.models.keyedvectors.KeyedVectors`的`self.wv`实例中存储并使用,这样可以节省内存
该模型可以通过`~gensim.models.word2vec.Word2Vec.save`和`~gensim.models.word2vec.Word2Vec.load`方法来存储和加载
训练后的单词向量还可以通过`self.wv.save_word2vec_format`原始word2vec实现方法和`gensim.models.keyedvectors.KeyedVectors.load_word2vec_format`来存储和加载。
一些重要的属性如下:
属性
----------
wv : :class:`~gensim.models.keyedvectors.Word2VecKeyedVectors`
这个对象本质上包含单词和embeeding之间的映射。经过训练,可以通过各种方式直接用来查询这些embeeding。有关示例,请参见模块级文档说明。
vocabulary : :class:`~gensim.models.word2vec.Word2VecVocab`
该对象表示模型的词汇表(有时在gensim中称为Dictionary)。
除了跟踪所有不同的单词之外,此对象还提供了其他功能,例如构造霍夫曼树(常用词更接近词根),或丢弃极为罕见的词。
trainables : :class:`~gensim.models.word2vec.Word2VecTrainables`
该对象表示用于训练embeeding的内部浅层神经网络。
在两种可用的训练模式(CBOW或SG)中,网络的语义略有不同,但是您可以将其视