零基础 实现基于python2.7 的中文词频统计和词云绘制(一)

2 篇文章 0 订阅
2 篇文章 0 订阅

近期因为工作需要,想利用python实现中分词频统计,然后生成图云,最终得到一个可独立运行的小程序。此前完全没有接触过这一块,零基础起步开始各种百度、下载、掉坑、排雷,终于磕磕绊绊的实现最初的需求,这里做个小结,希望能给其他小伙伴一点参考。

一、环境搭建

主要是安装python2.7的32位版+中文分词包“jieba”+生成词云包“wordcloud”+打包工具“pyInstaller”。

需要说明一下,安装python的环境最好是在能连互联网的电脑上安装,用python内部的pip命令非常好装。如果实在不能联网的话,最好是在能联网的机器上搭好环境,然后把python目录下的lib目录和script目录拷过来,效果相当于在本地安装好了需要的包。想通过下载离线安装包然后在本机上安装的办法容易出问题,本人实验了好几次各种问题各种出现,很头疼!!!总体感觉出问题的原因应该是每个安装都有它依赖的包,新手对这些不太敏感、不太注意或者压根就不知道,安装时候很容易出现由于缺乏依赖包而安装失败的情况,出现的报错提示还让人摸不着头脑。

1.安装python2.7。

安装方法:到python的官网上https://www.python.org/downloads/下载适用于win7的python2.7-x86msi的安装包,在本地安装即可。我的操作系统是win7旗舰版。

遇到问题:没问题。

其他说明:关于Python的版本经过百度发现,64位机器上安装32位或64位都可以,考虑以后的兼容性问题,建议装32位,后续再安装其他三方包的时候对应版本就选32位的,不要选64位的。我在最初安装jieba包的时候就遇到了这个问题,我安装的Python是32位的,而我的电脑是64位的,下载包时根据提示我总是选择64位的包,已安装就提示版本不对。

2.设置python环境变量

我的电脑->右键属性->高级系统设置->环境变量->双击变量path,在变量值的最后面加个分号,然后把python的安装目录粘在后面,例如我的Python安装目录是d:\python27,然后点击确定,环境变量就设置好了。

测试:打开cmd,输入python,出现如下图所示信息代表环境变量设置成功。

3.安装结巴

先安装pip工具,然后用pip工具安装jieba,也可以直接安装jieba的本地安装包,我建议第一种,省心。

安装方法:打开cmd->cd d:\python27\script\ ->easy_install pip,python安装成功后,在script目录下有easy_install.exe,这个工具就可以安装pip,如果python目录下没有script这个目录,果断换个安装程序卸了重装。人生苦短,时间紧任务重,没工夫在这深究~~

pip安装成功后,在script目录下输入pip命令后会出现如下界面:

安装完pip后,就可以安装jieba了。

保持当前script目录下执行命令:pip install jieba  ,保持联网的情况下基本没失败过(本人前后安装过无数次,满满的都是眼泪……)。

其他说明:pip命令会到指定的网址下载所需要的安装包和她的依赖包,通过看安装日志发现pip的默认下载地址是:https://files.pythonhosted.org/packages/63/95/6e03....87a/kiwisolver-1.0.1-cp2u-none-win32.whl(44kb)

4.安装wordcloud

pip install wordcloud --失败

下载wordcloud安装包,本地安装。下载地址https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud,选择32位的python2.7对应的包。下载完成后还是用pip命令安装,安装时指定安装包

pip install e:\实际路径\wordcloud.whl --成功

使用词云包还需要安装matplotlib ,用pip直接安装就行

pip install matplotlib

5.安装pyinstaller

pip install pyinstaller  ,可能会提示升级pip

pip -m pip install --upgrade pip, pip升级后在安装pyinstaller就行了

本篇文章介绍使用Python进行英文文献词频统计词云绘制的方法。 1. 数据收集 首先需要收集要分析的英文文献数据。可以从网上搜索并下载文献的text或者pdf格式文件。 2. 数据处理 使用Python读入文献文件,并根据需要进行数据清洗和预处理,例如去除标点符号、停用词和数字等。可以使用nltk库进行自然语言处理。 import string from nltk.corpus import stopwords from nltk.tokenize import word_tokenize from collections import Counter #读入文献文件 with open(r"path/to/file.txt","r", encoding="utf-8") as f: text = f.read() #去除标点符号和数字 text = text.translate(str.maketrans("", "", string.punctuation+string.digits)) #分词并去除停用词 tokens = word_tokenize(text.lower()) stop_words = set(stopwords.words("english")) filtered_words = [word for word in tokens if word not in stop_words] 3. 数据分析 使用Python统计词频,并将结果保存为字典或DataFrame,方便后续绘制词云或更进一步的分析。 #计算词频 word_count = Counter(filtered_words) #将结果保存为pandas DataFrame import pandas as pd df = pd.DataFrame.from_dict(word_count, orient='index', columns=['count']) 4. 词云绘制 使用Python绘制词云,可以使用wordcloud库。在绘制词云的时候可以对每个单词附上对应的词频。 #导入wordcloud库 from wordcloud import WordCloud import matplotlib.pyplot as plt #将结果转换为字典格式 word_dict = {} for key in word_count: word_dict[key] = word_count[key] #绘制词云 wc = WordCloud(background_color="white", max_words=1000) wc.generate_from_frequencies(word_dict) plt.figure(figsize=(12,6)) plt.imshow(wc, interpolation='bilinear') plt.axis("off") plt.show() 完成以上代码后,就可以得到类似如下的词云图: 如图所示,大的词表示在文献中出现的频率更高的单词。通过词云来直观地展现文献中的主题和关键词,有助于提高阅读效率和理解文章主旨。 本篇文章介绍了如何使用Python进行英文文献词频统计词云绘制。通过这些技术,不仅可以快速获取文献中的关键词,也可以更深入地理解文献的内容和结构。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值