统计文本词频并输出为Excel表格形式——Python实现

统计文本词频并输出为Excel表格形式——Python实现

本次实例主要是熟练对中文分词库_jieba库,以及二维数据存储_csv库的使用。

目录

  1. 简单介绍两个库的使用
  2. 实例问题及问题分析
  3. Python实现
一、简单介绍两个库的使用

jieba库:中文分词库,将中文文本分解为单个词语进行处理。

jeba.lcut(s):精确模式,对原文本进行词语拆分,无冗余。

jieba.lcut(s,cut_all=True):全模式,对文本进行拆分,列出所以可以组成的词语,存在冗余。

jieba.lcut_for_search(s):搜索引擎模式,在词库中进行搜索并对文本进行拆分,列出所以可以组成的词语,存在冗余。

jieba.add_word(w):向分词词典添加词语。

csv库:用作对二维数据的处理存储,所生成的文件格式为.csv,这种文件格式使用常用办公软件Excel可以打开。

csv.writer(fileName):返回一个文件的writer对象。
writerow(list):写入一行到文件中。

注意:jieba库是第三方库,所以需要进行安装才能使用,使用pip install jieba -i https://pypi.tuna.tsinghua.edu.cn/simple 即可,后面的网址是Python第三方库的清华大学的镜像网址(这样比默认网址会快速很多)。

二、实例问题及问题分析

本次实例目的是将一个政府工作报告进行词频分析,统计出出现次数前十的词语,结果通过表格的形式呈现。
在这个问题中,我们需要对整个文本使用jieba库进行分词,分成一个一个的词语然后进行词频的统计,对于结果的呈现,我们通过二维表格的形式进行展示,这里使用到csv库。

三、Python实现
#jieba库的使用以及csv库的使用
import jieba
import csv
txt = open("xiXiang.txt", 'rt', encoding = 'utf-8').read()  #读取所需要分析的文件内容
Excel = open("baoGao.csv", 'w', newline = '')   #打开表格文件,若表格文件不存在则创建
writ = csv.writer(Excel)    #创建一个csv的writer对象用于写每一行内容
writ.writerow(['名称','出现次数'])  #写表格表头
words = jieba.lcut(txt) #使用jieba库对文本进行分词
counts = {} #创建一个字典,用于对词出现次数的统计,键表示词,值表示对应的次数
for word in words:
    if len(word) <= 1:
        continue
    else:
        counts[word] = counts.get(word, 0) + 1  #在字典中查询若该字返回次数加一
item = list(counts.items()) #将字典转化为列表格式
item.sort(key = lambda x: x[1], reverse = True) #对列表按照第二列进行排序
for i in range(10):
    writ.writerow(item[i])  #将前十名写入表格
    

在这里插入图片描述
在这里插入图片描述

end

  • 6
    点赞
  • 65
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值