2021-11-12

一、实验目的和要求

  1. 导入jieba库
    2)掌握jieba库中lcut方法
    二、实验内容
    程序1:使用词频统计的方法,生成《水浒传》出场次数最多的5个人物的姓名。
    读取《水浒传》文本文件见附录:threekingdoms.txt
    注意:词频分析到人物分析的转换

第一次做种词频统计类的题 简要思路就是 首先对文本进行处理 然后进行分割成一个一个的列表,紧接着对列表进行判断,如果列表中的词是我们设定的那些动词就跳过他,如果列表长度大于1(目的是取出单个字或符号在这里的单个字默认不是人名)我们就把他进行次数统计,结果输出那些最多的前5名。
注:设定的词是我们通过统计出来次数很多却不是人名的词。

from collections import Counter
b=[]
exincludes = ['将军', '却说']
with open("threekingdoms.txt ",encoding="utf-8") as f:
    test=f.read()
    a=jieba.lcut(test, cut_all=False)
    for i in a:
        if i in exincludes:
            continue
        if len(i) > 1 :
            b.append(i)
    wordcount = Counter(b)
    print(wordcount.most_common(5))

// An highlighted block
var foo = 'bar';

在这里插入图片描述

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值