数据挖掘(一)——齐夫定律,停用词与词干提取 一、齐夫定律 齐夫定律是由哈佛大学的语言学家乔治·金斯利·齐夫于1949年发表的实验定律。它可以表述为:在自然语言的语料库里,一个单词出现的频率与它在频率表里的排名成反比。 齐夫定律公式:(r为词频排序顺序,F为词频) F ( r ) = C r α , 其 中 α ≈ 1 , C ≈