下载语料库
(找语料库找了好久,最后还是老师提供的😭😭😭)
下载完后不要直接解压,不然会显示文件损坏,而要用WikiExtractor来提取
创建一个文件夹WikiExtractor.py里面存放Wikipedia Extractor代码;
把文件放到同一文件夹下,用 cmd在这个文件夹下运行:
python WikiExtractor.py -b 500M -o output_filename input_filename.bz2
b 1000M表示的是以1000M为单位进行切分,有时候可能语料太大,我们可能需要切分成几个小的文件(默认),如果存入一个文件,只需要设置的大小比处理的包大即可;
output_filename:需要将提取的文件存放的路径;
input_filename.bz2:需要进行提取的.bz2文件的路径;
运行: