利用jieba分词进行中文文本特征抽取

最新推荐文章于 2022-11-04 20:24:16 发布

weixin_54096215

最新推荐文章于 2022-11-04 20:24:16 发布

阅读量654

点赞数

分类专栏： sklearn 文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_54096215/article/details/119929412

版权

sklearn 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

安装jieba分词库

pip install jiaba

导入库

import jieba

代码

a=jieba.cut(data)
print(type(a))
print(a)

返回的是一个迭代器，所以需要加list()

data = '北京天安门我爱你'
data1=data.encode('utf-8')
print(type(data1))
a='...'.join(list(jieba.cut(data)))
print(type(a))
print(a)

调用jieba分词，先实例化一个转换器，再调用fit_transform

完整代码

def cut_word(a):
    # data = '北京天安门我爱你'
    # data1=data.encode('utf-8')
    # print(type(data1))
    # a='...'.join(list(jieba.cut(data)))
    # print(type(a))
    # print(a)

    return '.'.join(list(jieba.cut(a)))

def cut_words():
    word=["出现问题原因：与表示的是两种数据类型，而上面出现问题的原因是对str字符串使用了解码，显然是猪头不对马尾。"]
    new_word=[]
    for i in word:
        new_word.append(cut_word(i))
    print(new_word)
    # 1.实例化一个转换器
    transfor=CountVectorizer(stop_words=["str"])#停用词必须放在一个列表里面
    # 2.调用fit_transform
    new_word=transfor.fit_transform(new_word)
    print("new_data\n",new_word.toarray())#统计每个特征词出现的总数
    print("特征名字\n",transfor.get_feature_names())
if __name__=="__main__":
    cut_words()

结果

weixin_54096215

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
利用jieba分词进行中文文本特征抽取

安装jieba分词库pip install jiaba导入库import jieba代码a=jieba.cut(data)print(type(a))print(a)返回的是一个迭代器，所以需要加list()data = '北京天安门我爱你'data1=data.encode('utf-8')print(type(data1))a='...'.join(list(jieba.cut(data)))print(type(a))print(a...
复制链接

扫一扫