用jieba进行中文分词并统计中文词频

最新推荐文章于 2024-08-02 16:55:49 发布

wqazxcvfr

最新推荐文章于 2024-08-02 16:55:49 发布

阅读量1.3w

点赞数 6

分类专栏： python自学文章标签： python jieba 词频统计中文分词遍历

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wqazxcvfr/article/details/84344575

版权

用jieba进行中文分词并统计中文词频
安装jieba

pip install jieba

2种：
1.统计三国演义排前20的词频（去掉部分不想要的词）
2.统计自行指定的三国演义人物的出场次数

import jieba
# 统计三国演义排前20的词频（去掉部分不想要的词）
# 打开读取文件名为threekingdoms.txt的三国演义文档
txt = open('threekingdoms.txt','r', encoding = 'utf-8').read()
# jieba.lcut() 精确模式切分中文
txt = jieba.lcut(txt)
counts = {
   }
new = {
   }
excludes = {
   '将军','却说','荆州','二人','不可','不能','如此','今日','次日','于是','如何','主公','一人','不敢','大喜','陛下','不知','汉中','只见','都督','后主'}
# string.format() 格式化
print('统计三国演义排前20的词频:')

最低0.47元/天解锁文章

关注

6
点赞
踩
94

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

wqazxcvfr CSDN认证博客专家 CSDN认证企业博客

码龄7年

3: 原创

54万+: 周排名

226万+: 总排名

2万+: 访问

: 等级

261: 积分

17: 粉丝

18: 获赞

7: 评论

86: 收藏

私信

关注

热门文章

分类专栏

python自学 3篇

最新评论

Python编程：从入门到实践 5.4.3 练习5-11 序数
wutuoban897: 我自学,依托这本书和b站系统的视频小甲鱼.不会做的题目上这里搜
Python编程：从入门到实践 5.4.3 练习 5-10 检查用户名
九门提督peter谭: 这个为什么不能使用副本切片
Python编程：从入门到实践 5.4.3 练习 5-10 检查用户名
m0_66719958: 谢谢你！我有想过创建新的列表放小写，但是没想到列表解析。
Python编程：从入门到实践 5.4.3 练习 5-10 检查用户名
weixin_58076324: 请问：在这个代码中，lower_current_users = [item.lower() for item in current_users] item 指的是current_users中的元素吗？
Python编程：从入门到实践 5.4.3 练习5-11 序数
Liu-HangYu: 你是跟着从实战到入门这本书自己学吗？求请教，我从去年下半年开始学习到现在还没学出点有用的东西，前两天我买了这本书，看到你和书上的要求的题目一模一样，所以想问下您是自学的还是报了学习班

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。