维基百科训练Word2vec模型

下载语料库

在这里插入图片描述
(找语料库找了好久,最后还是老师提供的😭😭😭)

下载完后不要直接解压,不然会显示文件损坏,而要用WikiExtractor来提取

创建一个文件夹WikiExtractor.py里面存放Wikipedia Extractor代码;
把文件放到同一文件夹下,用 cmd在这个文件夹下运行:
python WikiExtractor.py -b 500M -o output_filename input_filename.bz2
b 1000M表示的是以1000M为单位进行切分,有时候可能语料太大,我们可能需要切分成几个小的文件(默认),如果存入一个文件,只需要设置的大小比处理的包大即可;
output_filename:需要将提取的文件存放的路径;
input_filename.bz2:需要进行提取的.bz2文件的路径;
运行:
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值