《三国演义》人物出场统计代码分析如下所示:
通过对英文文本的统计,我们来设计对中文文本的统计,我们的思路如下:
我们首先调用jieba库进行分词,jieba库为中文分词词库,通过此词库,可以很好的完成分词任务。我们通过open函数将该文本打开,且模式为“r",为只读模式,而且设定要按照utf-8编码的方式来读取文本。我们采用jieba库的精确模式来进行分词。由于一个词组和他出现的次数构成了一种映射,我们来定义一种字典类型。来表达词组跟出现频率之间的对应关系。我们首先设立了一个空字典,例如counts={ },并且赋值给counts。
import jieba txt=open("三国演义.txt","r",encoding="utf-8").read() words=jieba.lcut(txt) counts={}
在设立了空字典之后,我们进行遍历,对其中的每个词组进行遍历,在遍历过程中,我们利用if-else语句进行判断,如果此时出现长度为1的时候,即不是词组,这时我们停止执行该语句,使用continue语句退出此层循环,执行后面的语句。
如果词组长度不等于1的时候。我们在之前设立了一个空字典,然后对所出现的每个词组进行遍历,采用字典的.get方法,即d.get(k,<default>)键k存在,则返回键k的对应值,不在则返回<default>值。,即如果这个词组在字典里面,用当前的某一个词组作为键索引字典, 如果他在里边,那就返回他的次数,后面再加1,说明这个词组又出现了一次,如果这个词组不在字典中的话,我们选择0进行返回值,即0+1=1.即在字典里面添加一个值。
我们在判断过程中,我们利用字典即 counts[word]来进行判断,如果字典里面存在这个词组word,则返回即为word的次数,如果字典里面不存在,即 counts[word]=1,这时字典里面记录了这个词组出现的次数为1,下次再遇到相同词组的时候,即在字典里面存在的基础上再进行加1。相当于在字典里面新增了一个键值对元素。即counts为一个字典,word为他的键,1为这个键的值,即一次,代码示例如下:
for word in words: if len(word)==1: continue else: counts[word]=counts.get(word,0)+1
之后我们需要对词频出现次数进行排序,首先我们将字典类型转换为列表类型便于操作。
首先我们利用字典的items方法获取字典的所有元素,然后将这些元素创建为列表类型,并且赋值给items。我们采用列表的sort方法。sort()方法,用于按特定顺序对列表元素进行排序。
语法格式如下:
sort(key=None,reverse=False)
以上格式中参数key用于指定排序规则,该参数可以是列表支持的函数,默认值为None,参数reverse用于控制列表元素排序的方式,该参数可以取值True或者False,取值为True表示降序排列,取值为False(默认值)表示升序排列。
在该代码中,我们将key设立为lambda x:x[1],其中lambda用来指定在列表中使用哪一个多元选项的列作为排序列,x:x[1]为对这个列表进行第二维排序,[0]为进行第一维排序。
完成一个列表根据键值对的2个元素的第2个元素进行排序,排序方式为由大到小的倒排
代码示例如下:
items=list(counts.items()) items.sort(key=lambda x:x[1],reverse=True)
之后,排序完成后,我们利用for循环将在前面的十五个进行输出,首先我们将列表里面的前十五个进行词组和统计次数的输出。在输出的时候,word为单词,count为次数,分别将列表里面的元素对应的值赋值给word和count,进行输出。我们将列表里面其中词组要求的是前十五个,所以选择为{0:<10},而次数统计的话是从1位数开始到5位数之前,即{1:>5},代码示例如下:
for i in range(15): word,count=items[i] print("{0:<10}{1:>5}".format(word,count))
《三国演义》人物出场统计总体代码如下所示:
import jieba txt=open("三国演义.txt","r",encoding="utf-8").read() words=jieba.lcut(txt) counts={} for word in words: if len(word)==1: continue else: counts[word]=counts.get(word,0)+1 items=list(counts.items()) items.sort(key=lambda x:x[1],reverse=True) for i in range(15): word,count=items[i] print("{0:<10}{1:>5}".format(word,count))
运行界面如下: