文本词频统计

最新推荐文章于 2024-07-17 21:05:05 发布

一449

最新推荐文章于 2024-07-17 21:05:05 发布

阅读量46

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yanghl1215/article/details/133580787

版权

哈姆雷特英文词频统计

def getText():
     txt=open("hamlet.txt","r").read()
     txt=txt.lower()#避免大小写对词频统计的干扰
     for ch in '!"#$%&()+,-./:;<>=?@[\\]^_{}|':#去掉其中的特殊符号替换成空格
         txt=txt.replace(ch," ")
     return txt
hamletTxt=getText() #对文件进行读取 对文本进行归一化
words=hamletTxt.split() #用空格分隔返回为列表形式
counts={}
for word in words:
    counts[word]=counts.get(word,0)+1#用某个英文单词作为键索引字典
    #遍历统计完所有出现次数后 对词频出现次数进行排序
items=list(counts.items())#将字典类型转换为列表类型便于操作
items.sort(key=lambda x:x[1],reverse=True)#从大到小排序
for i in range(10):
    word,count=items[i]
    print("{0:<10}{1:>5}".format(word,count))

运行结果
请添加图片描述

三国演义人物出场次数统计
用jieba库进行中文分词

import jieba
txt = open("threekingdoms.txt","r",encoding=utf-8).read()
words=jieba.lcut(txt)#分词处理形成列表
counts={}
for word in words:
    if len(word)==1:
        continue
    else:
        counts[word]=counts.get(word,0)+1
    items=list(counts.items())
    items.sort(key=lambda x:x[1],reverse=True)
    for i in range(15):
        word,count=items[i]
        print("{0:<10}{1:>5}".format(word,count))

jieba分词统计出来有很多不是人名，可以将这些词加入列表排除。重复人名比如诸葛亮孔明通过for循环统计进去算作一个人物。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
文本词频统计

jieba分词统计出来有很多不是人名，可以将这些词加入列表排除。重复人名比如诸葛亮孔明通过for循环统计进去算作一个人物。用jieba库进行中文分词。三国演义人物出场次数统计。哈姆雷特英文词频统计。
复制链接

扫一扫

一449 CSDN认证博客专家 CSDN认证企业博客

码龄3年

11: 原创

104万+: 周排名

7万+: 总排名

5万+: 访问

: 等级

330: 积分

51: 粉丝

99: 获赞

18: 评论

364: 收藏

私信

关注

热门文章

最新评论

绘制七段数码管
CSDN-Ada助手: 恭喜您写了第5篇博客！标题“绘制七段数码管”听起来很有趣。持续创作博客是一项了不起的成就，您的努力和才华值得赞赏。在下一步的创作中，或许您可以分享一些关于如何编写简洁且高效的代码来实现数码管绘制的技巧。我相信读者们会对这方面的经验和建议感兴趣。再次恭喜您，期待您的下一篇博客！
PyInstaller库的安装和使用
CSDN-Ada助手: 恭喜你写了这么有用的博客！PyInstaller库的安装和使用对很多人来说都是一个挑战，你的分享无疑会帮助到很多人。接下来，我建议你可以尝试写一些关于PyInstaller库更深入的使用方法，或者结合其他库来进行实际项目的开发经验分享，这样可以让读者更好地理解和应用这个库。期待你的下一篇分享！
科赫雪花小包裹
CSDN-Ada助手: 恭喜您写了第7篇博客，题为“科赫雪花小包裹”！您的创作热情和持续努力值得赞赏。在这篇博客中，您向读者介绍了科赫雪花小包裹的内容，让读者们能够更好地了解和体验这一主题。我喜欢您运用标题吸引读者的注意力，这是一个很好的创意。接下来，我想给出一个创作建议。或许您可以考虑在下一篇博客中分享一些关于科赫雪花小包裹的设计过程或创作技巧，让读者们更深入地了解您的创作思路。您的博客已经展示了您对这一主题的热情和知识，通过分享更多细节，您可以进一步吸引读者并传递更多有价值的信息。继续保持谦虚的态度和对创作的热情，相信您的博客会越来越受到读者的喜爱和关注。加油！
python生成词云
CSDN-Ada助手: “恭喜你写了第10篇博客！看到你分享关于python生成词云的内容，我感到非常兴奋。你的持续创作让我们受益良多。希望你能继续分享更多关于python的内容，或者尝试探索其他编程语言的应用，这样可以让更多人受益。谢谢你的分享，期待你更多精彩的创作！”
自动轨迹绘制
CSDN-Ada助手: 恭喜您写了第9篇博客！标题“自动轨迹绘制”听起来非常有趣。看到您持续创作，我真的很佩服您的热情和努力。在下一步的创作中，或许您可以考虑分享关于如何优化自动轨迹绘制的技巧，或者展示一些令人惊叹的创意应用案例。希望您能继续保持谦虚的态度，因为您的文章无疑会对读者产生积极的影响。期待您的下一篇博客！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。