英文语料预处理的主要步骤:
(此步骤针对的是txt格式的文件,如果文件为其他格式,需要先将其转换为txt文件再进行操作)
1、去除非英文字符的字符,例如符号、数字、中文等
2、去停用词
具体实现(python具体实现):
1、去除非英文字符
在python中使用re模块对非英文字符进行判断和替换:
使用re.compile()匹配出txt文件中的非英文字符,将要进行查找的字符放入()中即可,然后使用sub()来确定你想要将非英文字符替换成什么,这里代码替换为空格。
# -*- coding: utf-8 -*-
import os
import re
import codecs
def replace_func(input_file):
p1 = re.compile(r'-\{.*?(zh-hans|zh-cn):([^;]*?)(;.*?)?\}-')
p2 = re.compile(r'[(][: @ . , ?!\s][)]')
p3 = re.compile(r'[「『]')
p4 = re.compile(r'[\s+\.\!\/_,$%^*(+\"\')]+|[+——()?【】“”!,。?、~@#¥%……&*()0-9 , : ; \-\ \[\ \]\ ]')
outfile = codecs.open('std_' + input_file,