中文文本分析（1）--分词

最新推荐文章于 2024-06-03 09:57:18 发布

肉包里全是菜

最新推荐文章于 2024-06-03 09:57:18 发布

阅读量2.4k

点赞数 2

文章标签： python

本文链接：https://blog.csdn.net/weixin_44682992/article/details/93605433

版权

中文文本分析（1）--分词

1、安装包

import jieba
import re

2、数据预处理

数据格式：
[“晚上想吃五花肉土豆盖浇饭”，
“今晚吃鸡嘿咻嘿”，
“绿皮环保小火车进站”，
“一首《梦醒时分》送给大家”]

具体流程如下：

2.1 数据清洗

目的：清洗文本中的特殊符号

sentence =["晚上想吃五花肉土豆盖浇饭",
            "今晚吃鸡嘿咻嘿", 
            "绿皮环保小火车进站", 
            "一首《梦醒时分》送给大家"]

def subReplace(lines):
    #清洗文本中的特殊符号
    #re.compile将正则表达式编译成一个对象
    regex = re.compile(r"[0-9__~（）《》___()、/，...,！。：:;%-. 【】]")
    result = []
    for line in lines:
        line = regex.sub('',str(line)) #字符串替换
        result.append(line)
    return result

print(subReplace(sentence))

输出：
[‘晚上想吃五花肉土豆盖浇饭’, ‘今晚吃鸡嘿咻嘿’, ‘绿皮环保小火车进站’, ‘一首梦醒时分送给大家’]

2.2 分词

其中：自定义停用词与自定义分词词库Notepad++处编辑，注意保存格式为UTF-8，可将文本放在如下地址D:/PYTHON/PYTHON/Lib/site-packages/jieba/

def Cut_word(sentences_list):
    all_result_list = []
    jieba.load_userdict("my_dict_1.txt") #自定义词库如（梦醒时分、吃鸡）
    for sentence in sentences_list:
        result_list =[ word.upper() for word in jieba.cut(sentence)]
        all_result_list.append(result_list)
    return all_result_list

输出：
[[‘晚上’, ‘想’, ‘吃’, ‘五花肉’, ‘土豆’, ‘盖浇饭’],
[‘今晚’, ‘吃鸡’, ‘嘿咻嘿’],
[‘绿皮’, ‘环保’, ‘小’, ‘火车’, ‘进站’],
[‘一首’, ‘梦醒时分’, ‘送给’, ‘大家’]]

2.3 去除停用词

def stop_words_list():
    #导入停用词
    stop_words = []
    with open("my_stopword.txt",encoding = "UTF-8") as file_obj:
        for word in file_obj:
            stop_words.append(str(word.strip()))
    return stop_words 

def del_stop_words(word_list):
    stop_words = stop_words_list() #导入停用词
    result = []
    all_result = []
    for sentences in word_list:
        for word in sentences:
            if word.isspace() == True: #去除空格
                pass
            elif word not in stop_words :
                result.append(word)
            else:
                pass
        all_result.append(result)
        result = []
    return all_result

输出：
[[‘晚上’, ‘吃’, ‘五花肉’, ‘土豆’, ‘盖浇饭’],
[‘今晚’, ‘吃鸡’],
[‘绿皮’, ‘环保’, ‘火车’, ‘进站’],
[‘一首’, ‘梦醒时分’, ‘送给’ ,‘大家’]]

2.4 同义词替换

其中：同义词词库Notepad++处编辑，注意保存格式为UTF-8，一行词为同义词，用TAB键隔开，第一个词为替换词。可将文本放在如下地址D:/PYTHON/PYTHON/Lib/site-packages/jieba/

def Replace_syn(word_list):
    # 1读取同义词表：并生成一个字典。
    synonym_dict = {}
    with open("my_synonym.txt",encoding = "UTF-8") as file_obj:
        for line in file_obj:
            seperate_word=line.strip().split("\t")
            num = len(seperate_word)
            for i in range(1,num):
                synonym_dict[seperate_word[i]] = seperate_word[0]
    sen = []
    result = []
    for sentences in word_list:
        for word in sentences:
            if word in synonym_dict:
                word = synonym_dict[word]
                sen.append(word)
            else:
                sen.append(word)
        result.append(sen)
        sen = []
    return result

输出：
[[‘今晚’, ‘吃’, ‘五花肉’, ‘土豆’, ‘盖浇饭’],
[‘今晚’, ‘吃鸡’],
[‘绿皮’, ‘环保’, ‘火车’, ‘进站’],
[‘一首’, ‘梦醒时分’, ‘送给’ ,‘大家’]]

肉包里全是菜

关注

2
点赞
踩
20

收藏

觉得还不错? 一键收藏
1
评论
中文文本分析（1）--分词

中文文本分析（1）--分词1、安装包2、数据预处理2.1 数据清洗2.2 分词2.3 去除停用词2.4 同义词替换1、安装包import jiebaimport re2、数据预处理数据格式：[“晚上想吃五花肉土豆盖浇饭”，“今晚吃鸡嘿咻嘿”，“绿皮环保小火车进站”，“一首《梦醒时分》送给大家”]具体流程如下：数据清洗分词去除停用词同义词替换2.1 数据清洗目的：清洗文...
复制链接

扫一扫