1. tfidf 主要思想
如果某个词或短语在一篇文章出现的概率非常高,但是在其他文章中却很少出现,那么
就认为这个词或短语具有很好的具有很好的区分能力,主要用于分类
2. tfidf 作用:
评估词语对文章的重要性程度
3. 计算tfidf
公式:
tfidf = tf * idf
tf:词语出现的频率
idf:逆向文档频率 :lg (总文章数 / 出现这个词语的文章数)
demo:
假如一篇文件的总词语数是100个,而词语"非常"出现了5次,
tf = 0.05
总文件数: 10000000 , 出现了非常这个词语 10000份文章
idf = lg(1000 0000 / 10000) = 3
tfidf = 0.15
4. api 接口:
from sklearn.feature_extraction.text import TfidfVectorizer
方法:
fit
transform
fit_transform
get_feature_names