对《尤利西斯》等三本书,检验其是否符合齐普夫定律

对《尤利西斯》等三本书,检验其是否符合齐普夫定律

齐普夫定律(Zipf’s law),是美国哈佛大学语言学教授齐普夫(G.K.Zipf)于1948年提出的一个发现:在一种语言中,将词语按使用频率从高到低排序,设其使用频率为F,序号为R,近似有
F ∗ R = C F*R=C FR=C其中C是一个常数。
我就拿《圣经》、《哈姆雷特》和《尤利西斯》三本英文原著做个试验,凭借我单薄的计量知识,看看它们符不符合齐普夫定律。

代码实现过程

第一步,调包…

import xlwt     # 导出xls文件
from matplotlib import pyplot as plt
import numpy as np     # 用来给数据取对数
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm     # 做统计检验

第二步,写一个统计这几本书的词频,并且排序:

def get_stats(filename):
    """
    删除文本中的标点符号并将词频用字典形式储存
    """
    with open(filename, 'r', encoding='utf-8') as file:
        content = file.read()
    word_list = content.split(' ')

    # 删除文本中的标点符号
    exclude = "\'\"\n\t\r,./;[]-.<>?:{}_*!`~"
    for ex in exclude:
        for w in word_list:
            if ex in w:
                word_list.remove(w)
            else:
                continue

    # 统计词频,并将结果储存在字典内
    stats = {}
    for w in word_list:
        stats[w] = stats.get(w, 0) + 1
    return stats
    
def order_stats(stats):
    """
    词频从大到小排列
    """
    stats_order = sorted(stats.items(), key=lambda x:x[1], reverse=True)
    return stats_order

def get_fr(stats_order):
    """
    在词频从大到小排列后,为单词标序列号
    """
    fr = []
    rk = 1
    for i in stats_order:
        fr.append((rk, i[1]))
        rk += 1
    return fr

第三步,把统计结果导出为xls文件:

def make_excel(stats, filename):
    """
    将词频储存在excel中
    """
    wbk = xlwt.Workbook()
    sheet = wbk.add_sheet("wordcount")
    for i in range(len(stats)):
        sheet.write(i, 0, label=list(stats.keys())[i])
        sheet.write(i, 1, label=list(stats.values())[i])
    wbk.save(r'E:{}stats.xls'.format(filename[:-4]+'_'))

第四步,作图:

def get_x(fr):
    """
    获取x轴上的值
    """
    x = []
    for i in fr:
        x.append(int(i[0]))
    return x

def get_y(fr):
    """
    获取y轴上的值
    """
    y = []
    for i in fr:
        y.append(int(i[1]))
    return y

def log_x(x):
    """
    对x取对数
    """
    x1 = np.log(x)
    return x1

def log_y(y):
    """
    对y取对数
    """
    y1 = np.log(y)
    return y1

def visualize_stats(fr, x, y, x1, y1, filename):
    """
    根据统计结果作折线图
    """
    # 按stats原值绘制折线图
    plt.figure(1)
    ax = plt.gca()
    ax.spines['bottom'].set_position(('data', 0))
    ax.spines['left'].set_position(('data', 0))
    plt.plot(x, y)
    plt.xlabel('rank')
    plt.ylabel('frequency')
    plt.title(filename[:-4])
    plt.savefig('E:{}.png'.format(filename[:-4]+'_plot_int'))
    plt.show()

    # 将stats取对数并绘制折线图
    plt.figure(2)
    ax = plt.gca()
    ax.spines['bottom'].set_position(('data', 0))
    ax.spines['left'].set_position(('data', 0))
    plt.plot(x1, y1)
    plt.xlabel('log_rank')
    plt.ylabel('log_frequency')
    plt.title(filename[:-4])

    # 绘制一元线性回归图形
    x2 = []
    y2 = []
    for i in x1:
        temp = []
        temp.append(i)
        x2.append(temp)
    for i in y1:
        temp = []
        temp.append(i)
        y2.append(temp)
    l_model = LinearRegression()
    l_model.fit(x2, y2)
    y2_pre = l_model.predict(x2)
    plt.plot(x2, y2_pre, 'r-')

    # 储存图像
    plt.savefig('E:/{}.png'.format(filename[:-4]+'_plot_log'))
    plt.show()

第五步,做统计检验:

def ols_regression(x1,y1):
    """
    作一元线性回归
    """
    x1 = sm.add_constant(x1)
    mod = sm.OLS(y1, x1)
    res = mod.fit()
    print(res.summary())

第六步,调用主函数:

import collect_stats as cs

books = ['Hamlet, Prince of Denmark by William Shakespeare.txt',
         'The King James Version of the Bible.txt',
         'Ulysses by James Joyce.txt']

for b in books:
    stats = cs.get_stats(b)
    stats_order = cs.order_stats(stats)
    fr = cs.get_fr(stats_order)
    cs.make_excel(stats, b)
    x = cs.get_x(fr)
    y = cs.get_y(fr)
    x1 = cs.log_x(x)
    y1 = cs.log_y(y)
    cs.visualize_stats(fr, x, y, x1, y1, b)
    cs.ols_regression(x1, y1)

结果

这是《圣经》的:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
从判定系数、t统计量、F统计量、P值来看(才学到这-_-),这很符合齐普夫定律!!!
这是《哈姆雷特》的:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
《哈姆雷特》的判定系数最高,难道是因为最通俗???
这是《尤利西斯》的:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
《尤利西斯》的判定系数最低,曲线最多舛。可以理解,大文豪爱掉书袋嘛。

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值