tfidf
tf是啥?词频
idf是啥?逆词频
max_df 选择词频的上界
min_df 选择词频的下界
max_features 选择的最大特征数
利用sklearn tfidf实例
导包
from sklearn.feature_extraction.text import TfidfVectorizer
实例化
word_vec = TfidfVectorizer(analyzer='word',
ngram_range=(1,2),#(1,3)
min_df=3, # 4 5
max_df=0.9, # 0.95 1.0
use_idf=True,
smooth_idf=True,
sublinear_tf=True)
用fit_transform训练
用transform预测<