(1). Zipf定律描述
1932年,哈佛大学的语言学专家Zipf在研究英文单词出现的频率时,发现如果把单词出现的频率按由大到小的顺序排列,则每个单词出现的频率与它的名次的常数次幂存在简单的反比关系(如图1),这种分布就称为Zipf定律。其公式为:
P(r)=C/r^a
这里,r表示一个单词的出现频率的排名,P(r)表示排名为的单词的出现频率。单词频率分布中C约等于0.1, a约等于1。需要注意的是,不同的内容,不同的场景,这两个参数是需要调整的,具体可以通过对原分布直方图取对数来获得斜率和截距。
图1 zipf分布实例