“文本词频统计”实例详解(中文文本《三国演义》)

《三国演义》人物出场统计代码分析如下所示:

通过对英文文本的统计,我们来设计对中文文本的统计,我们的思路如下:
我们首先调用jieba库进行分词,jieba库为中文分词词库,通过此词库,可以很好的完成分词任务。我们通过open函数将该文本打开,且模式为“r",为只读模式,而且设定要按照utf-8编码的方式来读取文本。我们采用jieba库的精确模式来进行分词。由于一个词组和他出现的次数构成了一种映射,我们来定义一种字典类型。来表达词组跟出现频率之间的对应关系。我们首先设立了一个空字典,例如counts={ },并且赋值给counts。

import jieba
txt=open("三国演义.txt","r",encoding="utf-8").read()
words=jieba.lcut(txt)
counts={}

在设立了空字典之后,我们进行遍历,对其中的每个词组进行遍历,在遍历过程中,我们利用if-else语句进行判断,如果此时出现长度为1的时候,即不是词组,这时我们停止执行该语句,使用continue语句退出此层循环,执行后面的语句。

如果词组长度不等于1的时候。我们在之前设立了一个空字典,然后对所出现的每个词组进行遍历,采用字典的.get方法,即d.get(k,<default>)键k存在,则返回键k的对应值,不在则返回<default>值。,即如果这个词组在字典里面,用当前的某一个词组作为键索引字典, 如果他在里边,那就返回他的次数,后面再加1,说明这个词组又出现了一次,如果这个词组不在字典中的话,我们选择0进行返回值,即0+1=1.即在字典里面添加一个值。
我们在判断过程中,我们利用字典即 counts[word]来进行判断,如果字典里面存在这个词组word,则返回即为word的次数,如果字典里面不存在,即 counts[word]=1,这时字典里面记录了这个词组出现的次数为1,下次再遇到相同词组的时候,即在字典里面存在的基础上再进行加1。相当于在字典里面新增了一个键值对元素。即counts为一个字典,word为他的键,1为这个键的值,即一次,代码示例如下:

for word in words:
    if len(word)==1:
        continue
    else:
        counts[word]=counts.get(word,0)+1

之后我们需要对词频出现次数进行排序,首先我们将字典类型转换为列表类型便于操作。

首先我们利用字典的items方法获取字典的所有元素,然后将这些元素创建为列表类型,并且赋值给items。我们采用列表的sort方法。sort()方法,用于按特定顺序对列表元素进行排序。

语法格式如下:

sort(key=None,reverse=False)

以上格式中参数key用于指定排序规则,该参数可以是列表支持的函数,默认值为None,参数reverse用于控制列表元素排序的方式,该参数可以取值True或者False,取值为True表示降序排列,取值为False(默认值)表示升序排列。

在该代码中,我们将key设立为lambda x:x[1],其中lambda用来指定在列表中使用哪一个多元选项的列作为排序列,x:x[1]为对这个列表进行第二维排序,[0]为进行第一维排序。 

完成一个列表根据键值对的2个元素的第2个元素进行排序,排序方式为由大到小的倒排

代码示例如下:

items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)



之后,排序完成后,我们利用for循环将在前面的十五个进行输出,首先我们将列表里面的前十五个进行词组和统计次数的输出。在输出的时候,word为单词,count为次数,分别将列表里面的元素对应的值赋值给word和count,进行输出。我们将列表里面其中词组要求的是前十五个,所以选择为{0:<10},而次数统计的话是从1位数开始到5位数之前,即{1:>5},代码示例如下:

for i in range(15):
    word,count=items[i]
    print("{0:<10}{1:>5}".format(word,count))

《三国演义》人物出场统计总体代码如下所示:

import jieba
txt=open("三国演义.txt","r",encoding="utf-8").read()
words=jieba.lcut(txt)
counts={}
for word in words:
    if len(word)==1:
        continue
    else:
        counts[word]=counts.get(word,0)+1
items=list(counts.items())
items.sort(key=lambda x:x[1],reverse=True)
for i in range(15):
    word,count=items[i]
    print("{0:<10}{1:>5}".format(word,count))

运行界面如下:

  • 7
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
SPSS(Statistical Product and Service Solutions)是一个专业的统计分析软件,被广泛应用于社会科学、医学、生物统计学等领域。 下面给出一个生物统计实例详解,以便更好地理解如何使用SPSS进行统计分析。 例子:某医院想研究患者的年龄、性别等因素对心脏病发生率的影响。共有100名患者参加了该研究,其中45名为男性,55名为女性。研究人员收集了患者的年龄和心脏病发生情况(发生/未发生)的数据。现在需要使用SPSS进行统计分析。 1. 打开SPSS软件,导入数据 在菜单栏中选择File -> Open -> Data,然后选择数据文件并打开。在打开数据之后,可以看到数据文件中每一列的名称和对应的数据类型。 2. 描述性统计分析 选择菜单栏中的Analyze -> Descriptive Statistics -> Frequencies,然后选择需要统计的变量(如年龄和性别),点击OK按钮进行分析。这样可以得到每个变量的频数、比例、平均值、标准差等基本统计量。 3. 单因素方差分析 选择菜单栏中的Analyze -> Compare Means -> One-Way ANOVA,然后选择需要分析的变量(如性别和心脏病发生情况),点击OK按钮进行分析。这样可以得到不同组之间的平均值差异是否显著。 4. 二元logistic回归分析 选择菜单栏中的Analyze -> Regression -> Binary Logistic,然后选择需要分析的变量(如年龄、性别和心脏病发生情况),点击OK按钮进行分析。这样可以得到各个变量对心脏病发生率的影响程度。 5. 结果解释 根据以上分析结果,可以得出结论:女性患者心脏病发生率高于男性,年龄越大心脏病发生率也越高。同时,性别和年龄对心脏病发生率有显著影响。 以上就是一个生物统计实例详解,希望能够对大家了解如何使用SPSS进行统计分析有所帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一直再追梦

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值