齐普夫定律是美国学者G.K.齐普夫于本世纪40年代提出的词频分布定律。它可以表述为:如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号,即频次最高的词等级为1,频次次之的等级为2,……,频次最小的词等级为D。若用f表示频次,r表示等级序号,则有fr=C(C为常数)。人们称该式为齐普夫定律.
注意此处常数C并不一定是文章总词数。按下来进行推论。
fr=c ==> f/n = c/nr,其中n为文章总词数,因此f/n称之为词的频率。
因而得出f/n = k/r,其中k只与总词数有关.
把文章扩大到全部文章,得出词的频率与排序号例数成正例。通常比例系统k可以求出来。
因为全部词的频率总和为1,即全部的k/r1+k/r2+......+k/rn = 1,其中r1+r2+....+rn = n.
从而得到k的值.