齐普夫定律

 齐普夫定律是美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……,频次最小的词等级为D。若用f表示频次,r表示等级序号,则有fr=C(C为常数)。人们称该式为齐普夫定律.

注意此处常数C并不一定是文章总词数。按下来进行推论。

fr=c ==> f/n = c/nr,其中n为文章总词数,因此f/n称之为词的频率。

因而得出f/n = k/r,其中k只与总词数有关.

把文章扩大到全部文章,得出词的频率与排序号例数成正例。通常比例系统k可以求出来。

因为全部词的频率总和为1,即全部的k/r1+k/r2+......+k/rn = 1,其中r1+r2+....+rn = n.

从而得到k的值.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值