Python——如何进行文本词频统计呢？看看思路哟。

最新推荐文章于 2023-10-25 22:16:54 发布

唐樽

最新推荐文章于 2023-10-25 22:16:54 发布

阅读量2.3k

点赞数 2

分类专栏： Python 实践题目文章标签： python

本文链接：https://blog.csdn.net/weixin_44775255/article/details/107445950

版权

Python 实践题目专栏收录该内容

58 篇文章 38 订阅

订阅专栏

思路：
1、open( ) 读取文本，for 对特殊字符进行 ch.replace( )替换；
2、hamletTxt.split( ) 对单词切分，获得了一个以空格分开的单词小写归一化文本；
3、把单词作为字典key counts[word] ，字典值为统计次数 counts.get(word,0) + 1，for循环统计词频次数；
4、字典换为列表，字典值-统计次数，降序排序；
5、输出前面出现次数最多的词频。
代码如下：

def getText():
    txt = open("hamlet.txt", "r").read()
    txt = txt.lower()
    for ch in '!"#$%&()*+,-./:;<=>?@[\\]^_‘{|}~':
        txt = txt.replace(ch, " ")   #将文本中特殊字符替换为空格
    return txt
    
# 获得了一个以空格分开的单词小写归一化文本
hamletTxt = getText()
words  = hamletTxt.split()  # 默认空隔切分，列表形式返回给Word，每个元素就是一个单词以空格分开
counts = {}  				# 以字典类型映射出统计对应关系
for word in words: 			# 2行代码统计次数
    counts[word] = counts.get(word,0) + 1
    # word 为键，get方法获取值 判断单词在不在字典中，在就+1 不在就添加赋值0 +1

items = list(counts.items()) # 把字典转换列表类型

# 要清楚字典转换为列表的元素存储方式 x[0] 是单词 x[1] 是统计次数
items.sort(key=lambda x:x[1], reverse=True) # 通过以降序 统计次数为排序依据

for i in range(10):
    word, count = items[i]
    print ("{0:<10}{1:>5}".format(word, count)) # 左右对齐方式 输出文本词频统计