这是网友用268G+语料训练好的word2vec模型。
训练语料:
- 百度百科800w+条,26G+
- 搜狐新闻400w+条,13G+
- 小说:229G+
下载链接:https://pan.baidu.com/s/1WH4exhHdSK3MwFPjFZK_xA
提取码:hosi
模型参数:
- window=5
- min_count=10
- size=128
- hs=1
- negative=0
- iter=5
- ps:其它参数见gensim库,执行代码为:gensim.models.Word2Vec(sentence, window=5, min_count=10, size=128, workers=4,hs=1, negative=0, iter=5)
其它相关:
- 分词词典使用了130w+词典。分词代码:jieba.lcut(sentence),默认使用了HMM识别新词;
- 剔除了所有非中文字符;
- 最终得到的词典大小为6115353;
- 模型格式有两种bin和model,使用方式:
a. bin模式:model =