简单的结巴分词与词频统计

最新推荐文章于 2024-08-02 16:55:49 发布

超级无敌的小咩～

最新推荐文章于 2024-08-02 16:55:49 发布

阅读量3.4k

点赞数 1

分类专栏： python基础文章标签： python

本文链接：https://blog.csdn.net/zhangmary/article/details/80642244

版权

这段Python代码实现了对文本的预处理，包括去除特殊字符、使用jieba进行分词，并统计词频。最后将结果写入文件并打印前五个高频词。

摘要由CSDN通过智能技术生成

#!/usr/bin/env python
# -*- coding: utf-8 -*-
import re
import sys
import jieba
import json
from collections import Counter
reload(sys)
sys.setdefaultencoding("utf-8")
filename = "rowss.txt"
f1 = open("row2.txt", "w+")
with open(filename) as f:
    mytext = f.read()
    mytext = mytext.decode("utf-8")
    mytext = re.sub("[\s+\.\!\/_,$%^*(+\"\']+|[+——！，。？、|~@#￥%……&*（）]+".decode("utf-8"), "".decode("utf8"), mytext)
    mytext = " ".join(jieba.cut(mytext))
    f1.write(mytext)
word_lst = []
word_dict = {}
with open("row2.txt") as f2, open("row4.txt", "w") as f3:
     for word in f2:
        word_lst.append(word.split(' '))
        for item in word_lst:
            for item2 in item:
                if item2 not in word_dict: