python-----简单英文语料预处理

最新推荐文章于 2024-04-18 10:26:54 发布

为了男神而奋斗

最新推荐文章于 2024-04-18 10:26:54 发布

阅读量4.1k

点赞数

文章标签：人工智能机器学习深度学习英文语料预处理 jieba

本文链接：https://blog.csdn.net/zzzzhy/article/details/81066719

版权

英文语料预处理的主要步骤：

（此步骤针对的是txt格式的文件，如果文件为其他格式，需要先将其转换为txt文件再进行操作）

1、去除非英文字符的字符，例如符号、数字、中文等

2、去停用词

具体实现（python具体实现）：

1、去除非英文字符

在python中使用re模块对非英文字符进行判断和替换：

使用re.compile()匹配出txt文件中的非英文字符，将要进行查找的字符放入()中即可，然后使用sub()来确定你想要将非英文字符替换成什么，这里代码替换为空格。

# -*- coding: utf-8 -*-
import os
import re
import codecs


def replace_func(input_file):
    p1 = re.compile(r'-\{.*?(zh-hans|zh-cn):([^;]*?)(;.*?)?\}-')
    p2 = re.compile(r'[(][: @ . , ？！\s][)]')
    p3 = re.compile(r'[「『]')
    p4 = re.compile(r'[\s+\.\!\/_,$%^*(+\"\')]+|[+——()?【】“”！，。？、~@#￥%……&*（）0-9 , : ; \-\ \[\ \]\ ]')
    outfile = codecs.open('std_' + input_file,

最低0.47元/天解锁文章

为了男神而奋斗

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
python-----简单英文语料预处理

英文语料预处理的主要步骤：（此步骤针对的是txt格式的文件，如果文件为其他格式，需要先将其转换为txt文件再进行操作）1、去除非英文字符的字符，例如符号、数字、中文等2、去停用词具体实现（python具体实现）：1、去除非英文字符在python中使用re模块对非英文字符进行判断和替换：使用re.compile()匹配出txt文件中的非英文字符，将要进行查找的字符放...
复制链接

扫一扫