“文本词频统计”实例详解（中文文本《三国演义》）

最新推荐文章于 2024-07-02 10:24:12 发布

一直再追梦

最新推荐文章于 2024-07-02 10:24:12 发布

阅读量3.8k

点赞数 7

分类专栏： python基础文章标签： python 后端

本文链接：https://blog.csdn.net/weixin_59448049/article/details/123510282

版权

python基础专栏收录该内容

58 篇文章 28 订阅

订阅专栏

《三国演义》人物出场统计代码分析如下所示：

通过对英文文本的统计，我们来设计对中文文本的统计，我们的思路如下：
我们首先调用jieba库进行分词，jieba库为中文分词词库，通过此词库，可以很好的完成分词任务。我们通过open函数将该文本打开，且模式为“r",为只读模式，而且设定要按照utf-8编码的方式来读取文本。我们采用jieba库的精确模式来进行分词。由于一个词组和他出现的次数构成了一种映射，我们来定义一种字典类型。来表达词组跟出现频率之间的对应关系。我们首先设立了一个空字典,例如counts={ },并且赋值给counts。

import jieba
txt=open("三国演义.txt","r",encoding="utf-8").read()
words=jieba.lcut(txt)
counts={}

在设立了空字典之后，我们进行遍历，对其中的每个词组进行遍历，在遍历过程中，我们利用if-else语句进行判断，如果此时出现长度为1的时候，即不是词组，这时我们停止执行该语句，使用continue语句退出此层循环，执行后面的语句。

如果词组长度不等于1的时候。我们在之前设立了一个空字典，然后对所出现的每个词组进行遍历，采用字典的.get方法，即d.get(k,<default>)键k存在，则返回键k的对应值，不在则返回<default>值。，即如果这个词组在字典里面，用当前的某一个词组作为键索引字典，如果他在里边，那就返回他的次数，后面再加1，说明这个词组又出现了一次，如果这个词组不在字典中的话，我们选择0进行返回值，即0+1=1.即在字典里面添加一个值。
我们在判断过程中，我们利用字典即 counts[word]来进行判断，如果字典里面存在这个词组word,则返回即为word的次数，如果字典里面不存在，即 counts[word]=1，这时字典里面记录了这个词组出现的次数为1，下次再遇到相同词组的时候，即在字典里面存在的基础上再进行加1。相当于在字典里面新增了一个键值对元素。即counts为一个字典，word为他的键，1为这个键的值，即一次，代码示例如下：

for word in words:
    if len(word)==1:
        continue
    else:
        counts[word]=counts.get(word,0)+1

之后我们需要对词频出现次数进行排序，首先我们将字典类型转换为列表类型便于操作。

首先我们利用字典的items方法获取字典的所有元素，然后将这些元素创建为列表类型，并且赋值给items。我们采用列表的sort方法。sort（）方法，用于按特定顺序对列表元素进行排序。

语法格式如下：

sort(key=None,reverse=False)

以上格式中参数key用于指定排序规则，该参数可以是列表支持的函数，默认值为None,参数reverse用于控制列表元素排序的方式，该参数可以取值True或者False,取值为True表示降序排列，取值为False（默认值）表示升序排列。

在该代码中，我们将key设立为lambda x:x[1],其中lambda用来指定在列表中使用哪一个多元选项的列作为排序列，x:x[1]为对这个列表进行第二维排序，[0]为进行第一维排序。

完成一个列表根据键值对的2个元素的第2个元素进行排序，排序方式为由大到小的倒排

代码示例如下：

items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)

之后，排序完成后，我们利用for循环将在前面的十五个进行输出，首先我们将列表里面的前十五个进行词组和统计次数的输出。在输出的时候，word为单词，count为次数，分别将列表里面的元素对应的值赋值给word和count,进行输出。我们将列表里面其中词组要求的是前十五个，所以选择为{0:<10}，而次数统计的话是从1位数开始到5位数之前，即{1:>5}，代码示例如下：

for i in range(15):
    word,count=items[i]
    print("{0:<10}{1:>5}".format(word,count))

《三国演义》人物出场统计总体代码如下所示：

import jieba
txt=open("三国演义.txt","r",encoding="utf-8").read()
words=jieba.lcut(txt)
counts={}
for word in words:
    if len(word)==1:
        continue
    else:
        counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):
    word,count=items[i]
    print("{0:<10}{1:>5}".format(word,count))

运行界面如下：

一直再追梦

关注

7
点赞
踩
25

收藏

觉得还不错? 一键收藏
打赏
1
评论
“文本词频统计”实例详解（中文文本《三国演义》）

《三国演义》人物出场统计代码如下所示：import jiebatxt=open("三国演义.txt","r",encoding="utf-8").read()words=jieba.lcut(txt)counts={}for word in words: if len(word)==1: continue else: counts[word]=counts.get(word,0)+1 items=list(counts.items
复制链接

扫一扫