TF*IDF
TF 称为词频,表示词在一篇文档中出现的频率=词在该文档中出现的次数 / 该文档中单词的总数---TF越大,表示该词对文档越重要
DF称为文档频率,一个词在多少篇文章中出现过
IDF 称为逆文档频率=Ln(总文档数/出现该次的文档数)
反映了一个词在所有文档中出现的频率,如果一个词在很多文档中出现,那么它的IDF值较低;如果一个词在比较少的文档中出现,那么它的IDF值较高。如果一个词在所有的文档中都出现,那么它的IDF值为0.
TF*IDF主要思想:如果某个词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为这个词具有很好的类别区分能力