Python程序设计之词频统计

       前文链接:

目录

作业要求

设计思路

运行结果

 最后代码附上


作业要求


  • 选择一部长度合适的小说,中文、英文或其他语种皆可,长度不低于5万字。
  • 首先对文本进行词(字)频统计,中文可以进行分词统计词频,或不分词统计字频,英文要求统计词频并考虑词语的大小写等价性。
  • 按照词频顺序列出所有的词及其出现次数;
  • 绘制排序-数量曲线,验证Zipf-Law(可以用第三方软件绘图)。
  • 利用正则表达式查找文件中的某种特定模式,对这种模式进行提取分析。要求提取出的内容有一定的复杂性(多种匹配结果),提取的数量不低于20个。

设计思路


  • 首先我一开始选择了小说《三体》,但是全集字数过多(接近百万字),于是只选择了《三体Ⅱ·黑暗森林》的部分,但是字数依旧不少(三四十万字),但相对来说长度已经比较合适。
  • 首先对小说文本进行词频统计,
  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

LeeYotta

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值