齐夫定律
维基百科,自由的百科全书
原文地址:http://zh.wikipedia.org/zh-cn/%E9%BD%8A%E5%A4%AB%E5%AE%9A%E5%BE%8B
从根本上讲,齐夫定律 可以表述为:在自然语言 的语料库 里,一个单词出现的频率与它在频率表里的排名成反比 。所以,频率最高的单词出现的频率大约是出现频率第二位的单词的2倍,而出现频率第二位的单词则是 出现频率第四位的单词的2倍。这个定律被作为任何与power law probability distribution s有关的事物的参考。 这个“定律”是哈佛大学 的语言学家 George Kingsley Zipf (IPA [zɪf] )发表的。
比如,在 Brown 语料库 中,“the”是最常见的单词,它在这个语料库 中出现了大约7%(10万单词中出现69971次)。正如齐夫定律中所描述的一样,出现次数为第二位的单词“of”占了整个语料库中的3.5% (36411次),之后的是“and”(28852次)。仅仅135个字汇就占了Brown 语料库 的一半。
齐夫定律是一个实验定律 ,而非理论 定律。齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。 齐夫定律很容易用点阵图观察,坐标为log (排名)和log(频率)。比如,“the”用上述表述可以 描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线,那么它就遵循齐夫定律。 最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率,按照从最常见到非常见排列,第二常见的频率是最常见频率的出现次数的½,第三常见的频率是最常见的频率的 1/3,第n常见的频率是最常见频率出现次数的1/n。然而,这并不精确,因为所有的项必须出现一个整数次数,一个单词不可能出现2.5次。然而,在一个 广域范围内并且做出适当的近似,许多自然现象都符合齐夫定律。