wiki语料库处理

最新推荐文章于 2024-11-20 10:27:37 发布

伟呓

最新推荐文章于 2024-11-20 10:27:37 发布

阅读量850

点赞数 3

分类专栏： NLP从入门到入土文章标签： 1024程序员节 pytorch 深度学习

本文链接：https://blog.csdn.net/weixin_43991828/article/details/123769022

版权

NLP从入门到入土专栏收录该内容

2 篇文章

订阅专栏

训练英文词向量的时候希望用wiki语料库，但是官方给的文件只有.xml格式，解压后无法直接另存为txt文件（会告诉你文件过大，无法用记事本打开），搜索资料发现大家用的都是gensim自带的WikiCorpus来处理，源代码如下：

from gensim.corpora import WikiCorpus
 
if __name__ == '__main__':
 
    inp="enwiki-latest-pages-articles.xml.bz2"##注意这里必须数.bz2，不能是自己手动解压后的文件，原因可以参考https://blog.csdn.net/Sonya_/article/details/103390787
    i = 0
    output_file="wiki_englist_%07d.txt"%i
 
 
    output = open(output_file, 'w',encoding="utf-8")
    wiki = WikiCorpus(inp, dictionary={})
    for text in wiki.get_texts():
        output.write(" ".join(text) + "\n")
        i = i + 1
        if (i % 10000 == 0):
            output.close()
            output_file = "wiki_englist_%07d.txt" % i
            output = open(output_file, 'w', encoding="utf-8")
            print("Save "+str(i) + " articles")
    output.close()

切记输入的文件后缀名应该是.xml.bz2
这串代码是每隔10000个字就保存一个文件，如果不嫌文档过大，可以不用if语句后的内容，直接用如下代码

from gensim.corpora import WikiCorpus
 
if __name__ == '__main__':
 
    inp="enwiki-latest-pages-articles.xml.bz2"##注意这里必须数.bz2，不能是自己手动解压后的文件，原因可以参考https://blog.csdn.net/Sonya_/article/details/103390787
    output_file="wiki_englist.txt"
 
 
    output = open(output_file, 'w',encoding="utf-8")
    wiki = WikiCorpus(inp, dictionary={})
    for text in wiki.get_texts():
        output.write(" ".join(text) + "\n")
    output.close()