词频统计可视化,词云

1.假如已将数据集进行词频统计保存咋txt文件中。如下形式:

2.将txt文件中的数据按照第一例的不同名字分成不同的CSV文件。

#import jieba
import csv

def split_txt_to_csv(txt_file):
    with open(txt_file, 'r', encoding='utf-8') as file:
        lines = file.readlines()

    data = {}
    for line in lines:
        line = line.strip()
        if line:
            values = line.split('\t')
            key = values[0]

            if key not in data:
                data[key] = []

            data[key].append(values)

    for key, values in data.items():
        csv_file = key + '.csv'
        with open(csv_file, 'w', newline='', encoding='utf-8') as file:
            writer = csv.writer(file)
            writer.writerows(values)

        print(f"{csv_file} created.")

# Example usage
txt_file = 'jieba-精确.txt'
split_txt_to_csv(txt_file)

运行结果如下图所示:

3.将txt文件中的数据按照第一例的不同名字分成不同的xlsx文件。

import pandas as pd

# 读取txt文件并将其转换为DataFrame格式
df = pd.read_csv('jieba-精确.txt', sep='\t', header=None, names=['name','word', 'frequency'])

# 根据第一列的不同将数据分组
grouped = df.groupby('name')

# 将分组后的数据写入不同的Excel文件中
for name, group in grouped:
    group.drop('name', axis=1, inplace=True)  # 删除第一列
    group.to_excel('{}.xlsx'.format(name), index=False, header=['word', 'frequency'])

结果如下图:

4.最后进行词云可视化

file = 'test1.xlsx'
# 将词频Excel文件读取为字典
wb = load_workbook(file)
ws = wb.active
wordFreq = {}
for i in range(2, ws.max_row + 1):
    word = ws["A" + str(i)].value
    freq = ws["B" + str(i)].value
    wordFreq[word] = freq

# 定义词云样式
wc = wordcloud.WordCloud(
    font_path='C:/Windows/Fonts/simhei.ttf',  # 设置字体
    #mask=maskImage,  # 设置背景图
    max_words=500,  # 最多显示词数
    max_font_size=100)  # 字号最大值

# 生成词云图
wc.generate_from_frequencies(wordFreq)  # 从字典生成词云
# 保存图片到指定文件夹
#wc.to_file("D:\program files (x86)\degree-thing\课程学习\研一上")
# 在notebook中显示词云图
plt.imshow(wc)  # 显示词云
plt.axis('off')  # 关闭坐标轴
plt.show()  # 显示图像

结果如下:

5.利用matplotlib库将钱10个高频词汇以及出现的次数进行条形统计图的可视化。

import matplotlib.pyplot as plt
from matplotlib.font_manager import *
import openpyxl

fig, ax = plt.subplots()
myfont = FontProperties(fname=r'C:\Windows\Fonts\simhei.ttf',size=12)
N = 10
workbook = openpyxl.load_workbook('test1.xlsx')
sheet = workbook.active
words = []
counts = []
for row in sheet.iter_rows(min_row=2,values_only=True):
    words.append(row[0])
    counts.append(int(row[1]))

colors = ['#FA8072']

#绘制前十条数据(N=10)
rects = ax.barh(words[:N], counts[:N], align='center', color=colors)
ax.set_yticklabels(words[:N],fontproperties=myfont)
ax.invert_yaxis()
ax.set_title('高频词汇',fontproperties=myfont, fontsize=17)
ax.set_xlabel(u"出现次数",fontproperties=myfont)
plt.show()

结果如下:

注意1:

若在运行代码过程中,出现某一个包未安装,可直接pycharm的Terminal控制台中输入命令:

pip install (包名)

即可安装任何缺失的第三方包护着库。

注意2:

若在使用pip 进行第三方包安装过程中出现pip版本太低,需要更新的问题。可以使用命令:

python -m pip install --upgrade pip -i https://pypi.douban.com/simple
进行pip版本升级,后面的https://pypi.douban.com/simple是镜像下载链接,使用将向下载和升级,速度会更快。

参考博文1:Python词频统计导入TXT,创建词云和词频数据可视化_python词频统计怎么导入文件-CSDN博客

参考博文2 :用Python分析文本数据的词频并词云图可视化_python 文本分析 词云-CSDN博客

### 回答1: 中文词频统计是指对一段中文文本中出现的语进行计数,以了解文本中哪些语出现频率较高。而利用图进行数据可视化,则是将词频统计结果以图形化的方式呈现,使得数据更加直观易懂。 图是一种基于词频统计结果的可视化方式,它将出现频率较高的语以较大的字体大小呈现,而出现频率较低的语则以较小的字体大小呈现。通过图,我们可以一目了然地看出文本中哪些语出现频率较高,从而更好地理解文本的主题和内容。 中文词频统计图的应用非常广泛,可以用于文本分析、舆情监测、市场调研等领域。在实际应用中,我们可以利用Python等编程语言来实现中文词频统计图的生成,从而更加高效地处理大量文本数据。 ### 回答2: 中文词频统计是指对中文文本进行分析,统计出每个在文本中出现的次数,并通过这些数据,对文本内容进行分析、总结和简化。这种技术可用于对中文文本中的特定文本信息进行挖掘,同时也可以作为一种帮助部署自然语言处理技术的方法。 在进行中文词频统计的同时,可利用图对统计出的数据进行可视化图是通过对文本中的高频汇进行可视展示的一种方法,它将不同的汇按照出现的频率大小进行排列,并根据其出现的频率大小和重要性来调整不同单的大小、颜色等属性。 利用图进行数据可视化能够帮助用户更直观地理解文本数据,理清数据之间的关系和分析出数据的重点。通过数据可视化,用户可以更容易地捕捉到数据的趋势、优势和劣势等重要信息,从而拥有更客观、全面的数据视角。 在中文词频统计和利用图进行数据可视化的过程中,需要注意选择合适的分析工具和方法,并根据具体需求和目的进行数据清洗、处理和优化,以提高数据分析的准确性和有效性。 总的来说,中文词频统计和利用图进行数据可视化是一种有效的数据分析和展示方法,能够为用户提供直观、清晰和全面的数据分析结果,同时也是现代企业和研究机构进行数据分析和决策制定的重要工具之一。 ### 回答3: 随着信息技术的发展,数据可视化在日常生活和商业应用中变得越来越重要。其中,数据可视化的一种形式是图。图是通过计算每个汇出现的频率,并将其映射到图形中的字体大小来呈现数据的可视化形式。中文词频统计并利用图进行数据可视化是一种有效的方式,能够快速、直观地了解文本的特征和重点。 首先要做的是获取要进行词频统计的文本。可以使用Python等程序语言完成文本处理过程。接着,通过利用程序语言中的相关工具进行分处理,得到一个个单独的汇。然后,通过统计每个汇出现的频率,得到词频数据。最后,利用生成器将数据进行可视化呈现,得到一个独特的图。 在中文词频统计过程中,需要注意的是中文分的问题。中文分可以使用很多开源的分器,例如jieba分器。此外,在数据可视化时,还需要考虑图的字体、颜色、背景色等方面的调整,来使得生成的图形更加合适和美观。 中文图在许多领域都有广泛的应用。例如,在媒体方面,可以使用图来分析新闻报道的重点和关键;在市场分析方面,可以利用图来了解顾客体验和市场需求;在学术研究方面,可以使用图来分析论文关键和学科研究热点等。 总之,中文词频统计并利用图进行数据可视化是一种很有价值的数据分析手段。只要对数据的特征进行合理的统计可视化,可以从中获得很多有用的信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值