TF-IDF 概念
代码
from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
def tf_words():
word = ["出现问题原因:与表示的是两种数据类型,而上面出现问题的原因是对str字符串使用了解码,显然是猪头不对马尾。"]
new_word = []
for i in word:
new_word.append(cut_word(i))
print(new_word)
# 1.实例化一个转换器
transfor = TfidfVectorizer(stop_words=["str"]) # 停用词必须fang在一个列表里面
# 2.调用fit_transform
new_word = transfor.fit_transform(new_word)
print("new_data\n", new_word.toarray())
print("特征名字\n", transfor.get_feature_names())
if __name__=="__main__":
tf_words()
结果
场景
文章分类时每个词的重要性程度