python学习笔记--文本词频统计1

最新推荐文章于 2024-04-16 08:48:25 发布

zhangzehua_

最新推荐文章于 2024-04-16 08:48:25 发布

阅读量603

点赞数

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangzehua_/article/details/99760378

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

实例：【哈姆雷特】英文版作品单词频率统计

#CalHamletV1.py
def getText():
    txt = open ("hamlet.txt","r").read()     #读取文件
    txt = text.lower()                          #将所有字母变为小写
    for ch in '!@#$%^&*()":<>?,./;'[]\|~':          #将所有特殊字符变为空格
        txt = txt.replace(ch," ")
    return txt

hamletTxt = getText()
words = hamletTxt.split()   #采用空格，将元素分开，返回列表类型
counts = {}
for word in words :
    counts[word] = counts.get(word,0) + 1     #从列表中取出单词，有就+1，没有就赋默认值0
items = list (counts.items())   #转化为列表类型
items.sort(key=lambda x:x[1],reverse = True)  #按第二个元素，进行倒排序
for i in range(10):
  word,count = item[i]
  print("{0:<10}{1:>5}".format(word,count))   #打印出现次数前10的

学习视频：https://www.icourse163.org/learn/BIT-268001?tid=1002788003#/learn/content?type=detail&id=1004072177&cid=1005005730&replay=true

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

zhangzehua_ CSDN认证博客专家 CSDN认证企业博客

码龄6年

11: 原创

20万+: 周排名

105万+: 总排名

8963: 访问

: 等级

170: 积分

2: 粉丝

2: 获赞

2: 评论

10: 收藏

私信

关注

热门文章

分类专栏

产品 4篇
Jmeter 2篇
python 5篇

最新评论

UML用例图——角色错误点
[20180504]: 请问能不能分享一下正确画法
python selenium笔记
zhangzehua_: 对于上面browser = webdriver.Firefox()一行，可以替换成browser = webdriver.Ie()、browser = webdriver.Chrome()，但是需要相应浏览器的驱动，从别人那里看到各浏览器下载地址是https://code.google.com/p/selenium/downloads/list，但是我能打开，从历史记录打开之后变成了https://github.com/seleniumhq/selenium-google-code-issue-archive这个链接

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。