前文链接:
目录
作业要求
- 选择一部长度合适的小说,中文、英文或其他语种皆可,长度不低于5万字。
- 首先对文本进行词(字)频统计,中文可以进行分词统计词频,或不分词统计字频,英文要求统计词频并考虑词语的大小写等价性。
- 按照词频顺序列出所有的词及其出现次数;
- 绘制排序-数量曲线,验证Zipf-Law(可以用第三方软件绘图)。
- 利用正则表达式查找文件中的某种特定模式,对这种模式进行提取分析。要求提取出的内容有一定的复杂性(多种匹配结果),提取的数量不低于20个。
设计思路
- 首先我一开始选择了小说《三体》,但是全集字数过多(接近百万字),于是只选择了《三体Ⅱ·黑暗森林》的部分,但是字数依旧不少(三四十万字),但相对来说长度已经比较合适。
- 首先对小说文本进行词频统计,