jieba,wordcloud库实现中文词频分析和词语可视化
前言:
这篇文章是我在CSDN上写的第一篇文章,本人一枚在校本科狗,喜欢编程,看见身边的同学都有在CSDN上写文章,于是自己也来试一试。受限于本人的智力水平,可能代码有许多不足或者冗余,希望大家可以指点指点(不要骂我,我是玻璃心)。如果有任何建议,请在评论区评论,我会虚心请教,争取变得更好。
一、实验题目:
从网上获取自己感兴趣的党史人物故事作为文本素材,并下载中文停止词。利用第三方库jieba进行分词,剔除停止词后再统计词频,将高频词用第三方库wordcloud可视化为有特色的词云。
二、实验准备:
1.党史人物故事文本
2.中文停止词文本
3.jieba和wordcloud等第三方库(关于jieba库和wordcloud库的安装我会在后面一篇文章给出)
4.pycharm(python3.10.1)
实验准备的1和2我放到了这个链接里:
链接:https://pan.baidu.com/s/17mhNsNp5tLOQjvkvvfvVeA?pwd=hu62
提取码:hu62
三、实验内容
1.全部代码:
代码如下(示例):
import os
import jieba
import wordcloud #导入os库和jieba,wordcloud等第三方库
os.chdir('D:\\Python\\workfile')#改变当前工作目录到指定路径,该路径需读者自行创建
f1=open('党史人物故事素材.txt',encoding='utf-8')
text=f1.read()
f1.close()#用'utf-8'编码格式打开素材文件,读入文档并返回给text,关闭文件
words=jieba.lcut(text)#调用jieba.lcut()函数,分割文章中的中文词汇,并返回给words
dic={
}#定义一个空字典,用于统计非停词词频