安装jieba分词库
pip install jiaba
导入库
import jieba
代码
a=jieba.cut(data) print(type(a)) print(a)
返回的是一个迭代器,所以需要加list()
data = '北京天安门我爱你' data1=data.encode('utf-8') print(type(data1)) a='...'.join(list(jieba.cut(data))) print(type(a)) print(a)
调用jieba分词,先实例化一个转换器,再调用fit_transform
完整代码
def cut_word(a):
# data = '北京天安门我爱你'
# data1=data.encode('utf-8')
# print(type(data1))
# a='...'.join(list(jieba.cut(data)))
# print(type(a))
# print(a)
return '.'.join(list(jieba.cut(a)))
def cut_words():
word=["出现问题原因:与表示的是两种数据类型,而上面出现问题的原因是对str字符串使用了解码,显然是猪头不对马尾。"]
new_word=[]
for i in word:
new_word.append(cut_word(i))
print(new_word)
# 1.实例化一个转换器
transfor=CountVectorizer(stop_words=["str"])#停用词必须放在一个列表里面
# 2.调用fit_transform
new_word=transfor.fit_transform(new_word)
print("new_data\n",new_word.toarray())#统计每个特征词出现的总数
print("特征名字\n",transfor.get_feature_names())
if __name__=="__main__":
cut_words()
结果