Python数据可视化之绘制词云图

最新推荐文章于 2024-04-18 11:55:01 发布

zhangfengBX

最新推荐文章于 2024-04-18 11:55:01 发布

阅读量1.6k

点赞数 1

分类专栏：大数据

本文链接：https://blog.csdn.net/zhangfengBX/article/details/104906823

版权

需要使用到的两个Python类库
jieba:中文分词分词工具
wordcloud:Python下的词云生成工具

jieba 类库使用介绍

支持三种分词模式：

精确模式，试图将句子最精确地切开，适合文本分析；
全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

可以在pychar的 file 》 settings 》 project：work_python 》 project interpreter 中安装jieba，如下图：

也可以从网站下载半自动安装，先下载 http://pypi.python.org/pypi/jieba/ ，解压后运行 python setup.py install

功能介绍

1、分词

jieba.cut 方法接受三个输入参数: 需要分词的字符串；cut_all 参数用来控制是否采用全模式；HMM 参数用来控制是否使用 HMM 模型
jieba.cut_for_search 方法接受两个参数：需要分词的字符串；是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

# encoding=utf-8
import jieba
s_list = jieba.cut("我叫孙宇晨，来自广东广州！",cut_all=True)
print("内容（全模式）："+"/".join(s_list))
s_list = jieba.cut("我叫孙宇晨，来自广东广州！",cut_all=False)
print("内容（精准模式）："+"/".join(s_list))
s_list = jieba.cut("我叫孙宇晨，来自广东广州！")
print("内容（模式是精准模式）："+"/".join(s_list))

s_list=jieba.cut_for_search("我是孙宇晨，网传百万男孩,毕业于湖南科学院计算机")
print("内容（cut_for_search）："+"/".join(s_list))

输出结果：

内容（全模式）：我/叫/孙/宇/晨///来自/广东/广州//！
内容（精准模式）：我/叫/孙宇晨/，/来自/广东/广州/！
内容（模式是精准模式）：我/叫/孙宇晨/，/来自/广东/广州/！

内容（cut_for_search）：我/是/孙宇晨/，/网传/百万/男

最低0.47元/天解锁文章

zhangfengBX

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
Python数据可视化之绘制词云图

需要使用到的两个Python类库jieba:中文分词分词工具wordcloud:Python下的词云生成工具jieba 类库使用介绍支持三种分词模式：精确模式，试图将句子最精确地切开，适合文本分析；全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。可以在...
复制链接

扫一扫

专栏目录