统计文本词频并输出为Excel表格形式——Python实现

最新推荐文章于 2023-06-23 08:35:07 发布

Aaranlei

最新推荐文章于 2023-06-23 08:35:07 发布

阅读量6.3k

点赞数 6

分类专栏： Python学习文章标签： python

本文链接：https://blog.csdn.net/weixin_44298385/article/details/104392226

版权

Python学习专栏收录该内容

17 篇文章 2 订阅

订阅专栏

统计文本词频并输出为Excel表格形式——Python实现

本次实例主要是熟练对中文分词库_jieba库，以及二维数据存储_csv库的使用。

本次实例目的是将一个政府工作报告进行词频分析，统计出出现次数前十的词语，结果通过表格的形式呈现。
在这个问题中，我们需要对整个文本使用jieba库进行分词，分成一个一个的词语然后进行词频的统计，对于结果的呈现，我们通过二维表格的形式进行展示，这里使用到csv库。

三、Python实现

#jieba库的使用以及csv库的使用
import jieba
import csv
txt = open("xiXiang.txt", 'rt', encoding = 'utf-8').read()  #读取所需要分析的文件内容
Excel = open("baoGao.csv", 'w', newline = '')   #打开表格文件，若表格文件不存在则创建
writ = csv.writer(Excel)    #创建一个csv的writer对象用于写每一行内容
writ.writerow(['名称','出现次数'])  #写表格表头
words = jieba.lcut(txt) #使用jieba库对文本进行分词
counts = {} #创建一个字典，用于对词出现次数的统计，键表示词，值表示对应的次数
for word in words:
    if len(word) <= 1:
        continue
    else:
        counts[word] = counts.get(word, 0) + 1  #在字典中查询若该字返回次数加一
item = list(counts.items()) #将字典转化为列表格式
item.sort(key = lambda x: x[1], reverse = True) #对列表按照第二列进行排序
for i in range(10):
    writ.writerow(item[i])  #将前十名写入表格