在scikit-learn中实现TF-IDF算法

原创

已于 2024-03-11 20:34:49 修改 · 653 阅读

9 ·

CC 4.0 BY-SA版权

文章标签：

#scikit-learn #tf-idf #机器学习

于 2024-03-10 17:55:41 首次发布

1.首先安装配置环境

pip install scikit-learn

2.TF-IDF可以实现将文本数据转换问数值向量表示（这里text数据已经进行了手动分词处理，如传入整段数据，得先进行分词处理。）

def test():
       text = ['好看 闻到味了 爱了爱了','针不戳 好可爱呀 可爱好可爱','好可爱呀 不愧是她 好看']  #某视频弹幕
       vectorizer = TfidfVectorizer() #实例化一个对象

       #对文本分析，统计 tf(词频）值，将能输入文本的td-idf进行计算
       vectorizer.fit(text) #预处理
       vectors = vectorizer.transform(text)  #转换信息

       # vectors = vectorizer.fit_transform(text)   #效果如上，调用此函数即可一步到位



       print(vectors)

3.查看输出结果