获取并处理中文维基百科语料

最新推荐文章于 2022-07-24 17:07:50 发布

richardxp888

最新推荐文章于 2022-07-24 17:07:50 发布

阅读量1.9k

点赞数 3

分类专栏： pytorch 文章标签：数据分析人工智能 nlp 自然语言处理

本文链接：https://blog.csdn.net/weixin_46087812/article/details/123708824

版权

pytorch 专栏收录该内容

11 篇文章 2 订阅

订阅专栏

获取语料

下载链接

处理语料

直接下载下来的维基百科语料是一个带有html和markdown标记的文本压缩包，基本不能直接使用。目前主流的开源处理工具主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。

然而，这两个主流的处理方法都不能让人满意。Wikipedia Extractor提取出来的结果，会去掉{{}}标记的内容，这样会导致下面的情形

西方语言中“数学”（；）一词源自于古希腊语的（）

这是因为括号里的词带有{{}}标记，被清空了；而按照网上的教程，直接用gensim.corpora.wikicorpus.WikiCorpus处理，问题更严重，因为它连所有标点都去掉了。想要得到一份高质量语料库，光依靠这些库是做不到的。因此，结合gensim和苏神的文章，处理脚本如下。

处理代码

from gensim.corpora.wikicorpus import extract_pages,filter_wiki
import bz2file
import re
import opencc
from tqdm import tqdm
import codecs

wiki = extract_pages(bz2file.open('zhwiki-latest-pages-articles.xml.bz2'))

def wiki_replace(d):
    s = d[1]
    s = re.sub(':*{\|[\s\S]*?\|}', '', s)
    s = re.sub('<gallery>[\s\S]*?</gallery>', '', s)
    s = re.sub('(.){{([^{}\n]*?\|[^{}\n]*?)}}', '\\1[[\\2]]', s)
    s = filter_wiki(s)
    s = re.sub('\* *\n|\'{2,}', '', s)
    s = re.sub('\n+', '\n', s)
    s = re.sub('\n[:;]|\n +', '\n', s)
    s = re.sub('\n==', '\n\n==', s)
    s = u'【' + d[0] + u'】\n' + s
    return opencc.convert(s).strip()

i = 0
f = codecs.open('wiki.txt', 'w', encoding='utf-8')
w = tqdm(wiki, desc=u'已获取0篇文章')
for d in w:
    if not re.findall('^[a-zA-Z]+:', d[0]) and d[0] and not re.findall(u'^#', d[1]):
        s = wiki_replace(d)
        f.write(s+'\n\n\n')
        i += 1
        if i % 100 == 0:
            w.set_description(u'已获取%s篇文章'%i)

f.close()

代码解释

代码的主要部分是正则表达式。首先通过bz2file直接不解压来读取下载下来的语料，然后用gensim的extract_pages来提取每个页面，提取后，先处理页面的一些特殊的、非文本的标记，然后将部分有用的{{}}标记替换为[[]]，因为[[]]标记不会被完全清空，然后用gensim的filter_wiki函数直接清理，接着再处理一下换行的问题，最后通过opencc将繁体转化为简体。

后面的循环中，re.findall('^[a-zA-Z]+:', d[0])这个条件是去掉那些帮助页面，re.findall(u'^#', d[1])这个条件是去掉重定向的页面，最后得到大概就是91.9万个页面。tqdm是用来显示进度的，这个必须有。程序在我的机器上运行了大概40分钟，得到了1.5G左右的纯文本语料。运行时间不重要，因为预处理是一次性的。

值得注意的是，opencc不能用sudo apt-get install opencc来安装，这个默认版本太低，要用源码编译安装，然后pip install opencc安装python接口，这时候在python中调用opencc可能会报“段错误”，这时候要运行cp /usr/lib/libopencc.so.1.0.0 /usr/lib/x86_64-linux-gnu/

richardxp888

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
获取并处理中文维基百科语料

获取语料下载链接处理语料直接下载下来的维基百科语料是一个带有html和markdown标记的文本压缩包，基本不能直接使用。目前主流的开源处理工具主要有两个：1、Wikipedia Extractor；2、gensim的wikicorpus库。然而，这两个主流的处理方法都不能让人满意。Wikipedia Extractor提取出来的结果，会去掉{{}}标记的内容，这样会导致下面的情形西方语言中“数学”（；）一词源自于古希腊语的（）这是因为括号里的词带有{{}}标记，被清空了；而按照网上的教程，
复制链接

扫一扫