中文维基百科语料库 & 训练好的Word2vec模型

最新推荐文章于 2024-10-31 10:31:19 发布

本尊是喵

最新推荐文章于 2024-10-31 10:31:19 发布

阅读量6k

点赞数 19

文章标签： python 自然语言处理 word2vec 深度学习

本文链接：https://blog.csdn.net/weixin_52492249/article/details/124759261

版权

选取wiki中文语料，并使用python完成Word2vec模型，文件共8.33G，根据需要下载，文件较大都进行了压缩，使用时根据需要解压

原始语料库：zhwiki-latest-pages-articles.xml
XML的Wiki数据转换为text格式：wiki.zh.txt
中文繁体转换为简体文件：wiki.zh.simp.txt
jieba分词后：wiki.zh.simp.seg.txt
Word2vec模型（4个文件）：wiki.zh.text.model、wiki.zh.text.model.syn1neg、wiki.zh.text.model.wv.vectors、wiki.zh.text.vector（词向量）

以上所有文件均放入百度网盘：

链接：https://pan.baidu.com/s/1kRShqmPp1dq8wwNfLIlW4g
提取码：rtyu