1.首先安装配置环境
pip install scikit-learn
2.TF-IDF可以实现将 文本数据转换问数值向量表示(这里text数据已经进行了手动分词处理,如传入整段数据,得先进行分词处理。)
def test():
text = ['好看 闻到味了 爱了爱了','针不戳 好可爱呀 可爱好可爱','好可爱呀 不愧是她 好看'] #某视频弹幕
vectorizer = TfidfVectorizer() #实例化一个对象
#对文本分析,统计 tf(词频)值,将能输入文本的td-idf进行计算
vectorizer.fit(text) #预处理
vectors = vectorizer.transform(text) #转换信息
# vectors = vectorizer.fit_transform(text) #效果如上,调用此函数即可一步到位
print(vectors)
3.查看输出结果
输出结果分析:
左侧数据中前三个用于描述向量的第一个位置 分别对应第6个位置,第4个位置,第3个位置有向量值。
右侧表对应数据
4