《三国演义》人物出场统计代码分析如下所示:
通过对人物出场的统计的分析,我们发现。在所运行的结果里面,有部分结果不属于人名,我们需要进行完善来达到输出结果全部为人名,从而达到统计人物出场的目的。
为了将词频与人物相关联,面向问题。我们的思路如下:
我们首先调用jieba库进行分词,jieba库为中文分词词库,通过此词库,可以很好的完成分词任务。我们通过open函数将该文本打开,且模式为“r",为只读模式,而且设定要按照utf-8编码的方式来读取文本。而且在这里我们设立了一个集合叫excludes,在这个集合里面,我们将一些确定不是人名但是在排序的时候又比较靠前的词组列进去,这样子经过反复的输出,把确定不是人名的都加进去,最后输出的即为全部都是人名。之后我们采用jieba库的精确模式来进行分词。由于一个词组和他出现的次数构成了一种映射,我们来定义一种字典类型。来表达词组跟出现频率之间的对应关系。我们首先设立了一个空字典,例如counts={ },并且赋值给counts。
import jieba txt=open("三国演义.txt","r",encoding="utf-8").read() excludes={"天下","宝刀","今日","众官","群臣","拔剑","卓命","何故","如何","使君","左右","卓大怒","武士","一日","何人","寿酒"} words=jieba.lcut(txt) counts={}
之后我们采用for循环进行遍历,在设立了空字典之后,我们进行遍历,对其中的每个词组进行遍历,在遍历过程中,我们利用if-elif-else语句进行判断,如果此时出现长度为1的时候,即不是词组,这时我们停止执行该语句,使用continue语句退出此层循环,执行后面的语句。如果在词组里面有不同名字但是代表同一个人的时候,我们可以进行设立。利用判断条件对名字进行判断。然后返回所判断的人名。如果两者名字相同,则返回原名字即可。
同时采用字典的.get方法,即d.get(k,<default>)键k存在,则返回键k的对应值,不在则返回<default>值。,即如果这个词组在字典里面,用当前的某一个词组作为键索引字典, 如果他在里边,那就返回他的次数,后面再加1,说明这个词组又出现了一次,如果这个词组不在字典中的话,我们选择0进行返回值,即0+1=1.即在字典里面添加一个值。
我们在判断过程中,我们利用字典即 counts[rword]来进行判断,如果字典里面存在这个词组word,则返回即为rword的次数,如果字典里面不存在,即 counts[rword]=1,这时字典里面记录了这个词组出现的次数为1,下次再遇到相同词组的时候,即在字典里面存在的基础上再进行加1。相当于在字典里面新增了一个键值对元素。即counts为一个字典,rword为他的键,1为这个键的值,即一次,代码示例如下:
for word in words: if len(word)==1: continue elif word=="诸葛亮"or word=="孔明曰": rword="孔明" elif word=="诸葛亮"or word=="孔明曰": rword="孔明" elif word=="关公" or word=="云长": rword="关羽" else: rword=word counts[rword]=counts.get(word,0)+1
之后,我们遍历刚开始所创建的集合,集合里面为所出现在前列但不是人名的输出结果,我们对这些词组进行遍历后,利用del d[k] ,删除字典d中键为k对应的数据值。即删除字典counts里面存在excludes集合里面的词组。删除这些词组所对应的次数。
for word in excludes: del counts[word]
删除之后,我们即可进行排序,之后我们需要对词频出现次数进行排序,首先我们将字典类型转换为列表类型便于操作。
首先我们利用字典的items方法获取字典的所有元素,然后将这些元素创建为列表类型,并且赋值给items。我们采用列表的sort方法。sort()方法,用于按特定顺序对列表元素进行排序。
语法格式如下:
sort(key=None,reverse=False)
以上格式中参数key用于指定排序规则,该参数可以是列表支持的函数,默认值为None,参数reverse用于控制列表元素排序的方式,该参数可以取值True或者False,取值为True表示降序排列,取值为False(默认值)表示升序排列。
在该代码中,我们将key设立为lambda x:x[1],其中lambda用来指定在列表中使用哪一个多元选项的列作为排序列,x:x[1]为对这个列表进行第二维排序,[0]为进行第一维排序。
完成一个列表根据键值对的2个元素的第2个元素进行排序,排序方式为由大到小的倒排
代码示例如下:
items=list(counts.items()) items.sort(key=lambda x:x[1],reverse=True)
之后,排序完成后,我们利用for循环将在前面的十五个进行输出,首先我们将列表里面的前十五个进行词组和统计次数的输出。在输出的时候,word为单词,count为次数,分别将列表里面的元素对应的值赋值给word和count,进行输出。我们将列表里面其中词组要求的是前十五个,所以选择为{0:<10},而次数统计的话是从1位数开始到5位数之前,即{1:>5},代码示例如下:
for i in range(15): word,count=items[i] print("{0:<10}{1:>5}".format(word,count))
总体代码如下所示:
import jieba txt=open("三国演义.txt","r",encoding="utf-8").read() excludes={"天下","宝刀","今日","众官","群臣","拔剑","卓命","何故","如何","使君","左右","卓大怒","武士","一日","何人","寿酒"} words=jieba.lcut(txt) counts={} for word in words: if len(word)==1: continue elif word=="诸葛亮"or word=="孔明曰": rword="孔明" elif word=="诸葛亮"or word=="孔明曰": rword="孔明" elif word=="关公" or word=="云长": rword="关羽" else: rword=word counts[rword]=counts.get(word,0)+1 for word in excludes: del counts[word] items=list(counts.items()) items.sort(key=lambda x:x[1],reverse=True) for i in range(15): word,count=items[i] print("{0:<10}{1:>5}".format(word,count))
运行界面如下所示:
举一反三:
应用问题的扩展:
可以应用到《红楼梦》、《西游记》、《水浒传》
政府工作报告,科研论文,新闻报道
对文本的词语或词汇绘制词云