利用TF-IDF分词进行中文文本特征抽取

weixin_54096215

于 2021-08-26 14:20:11 发布

阅读量399

点赞数

分类专栏： sklearn 文章标签： python 机器学习

本文链接：https://blog.csdn.net/weixin_54096215/article/details/119930313

版权

sklearn 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

TF-IDF 概念

代码

from sklearn.feature_extraction.text import CountVectorizer,TfidfVectorizer
def tf_words():
    word = ["出现问题原因：与表示的是两种数据类型，而上面出现问题的原因是对str字符串使用了解码，显然是猪头不对马尾。"]
    new_word = []
    for i in word:
        new_word.append(cut_word(i))
    print(new_word)
    # 1.实例化一个转换器
    transfor = TfidfVectorizer(stop_words=["str"])  # 停用词必须fang在一个列表里面
    # 2.调用fit_transform
    new_word = transfor.fit_transform(new_word)
    print("new_data\n", new_word.toarray())
    print("特征名字\n", transfor.get_feature_names())
if __name__=="__main__":
    tf_words()

结果