MOOC_Python语言程序设计_习题_文本词频统计

wonderh

于 2020-11-12 09:24:08 发布

阅读量958

点赞数

CC 4.0 BY-SA版权

分类专栏： python

本文链接：https://blog.csdn.net/wonderh/article/details/109636535

python 专栏收录该内容

9 篇文章

订阅专栏

本文介绍了一种文本词频统计的方法，通过Python读取《Hamlet》文本文件，去除标点符号并转换为小写，然后拆分单词，统计每个单词出现的频率，并按频率从高到低排序输出前十个最常出现的单词。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

实例10：文本词频统计 – Hamlet

‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‭‬‪‬‪‬‪‬‪‬‪‬‮‬‫‬‮

文本词频统计：一篇文章，出现了哪些词？哪些词出现的最多

解答

def getText():
    txt = open("hamlet.txt", "r").read().lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, ' ')
    return txt

dic = {}
hamletText = getText()
words = hamletText.split()
for w in words:
    dic[w] = dic.get(w, 0) + 1

data = sorted(dic.items(), key = lambda kv:(kv[1], kv[0]), reverse = True)
for i in range(10):
    word, count = data[i]
    print(word)