一、词袋模型转换文本数据
from sklearn.feature_extraction.text import CountVectorizer
# 实例化模型
count_vectorizer = CountVectorizer(stop_words='english')
# 转换文本数据
sparse_matrix = count_vectorizer.fit_transform(text)
# 获取转换结果
doc_term_matrix = sparse_matrix.todense()
# 输出结果
doc_term_matrix
二、TF-IDF 转换文本数据
from sklearn.feature_extraction.text import TfidfVectorizer
# 实例化TF-IDF法
tfidf_vectorizer = TfidfVectorizer()
# 将语料集转化为TF-IDF向量
tfidf_matrix = tfidf_vectorizer.fit_transform(text)
# 显示结果
tfidf_matrix.toarray()