import jieba
from sklearn.feature_extraction.text import CountVectorizer
def cut_work():
word1="你好"
word2="我好"
word3="大家好"
# 分词处理
c1=" ".join(list(jieba.cut(word1)))
c2= " ".join(list(jieba.cut(word2)))
c3 = " ".join(list(jieba.cut(word3)))
return c1,c2,c3
def demo():
# 将中文抽取数字特征
# 1获取需要抽取的数据
c1,c2,c3=cut_work()
data=[c1,c2,c3]
#实例化一个转化数据的对象
count=CountVectorizer()
data=count.fit_transform(data)
print(count.get_feature_names())
print(data.toarray())
demo()
python将文字转换成数字类型
最新推荐文章于 2024-04-17 22:24:47 发布