python生成词云图

最新推荐文章于 2024-10-08 12:37:10 发布

攒了一袋星辰

最新推荐文章于 2024-10-08 12:37:10 发布

阅读量479

点赞数 7

文章标签： python 开发语言

本文链接：https://blog.csdn.net/xiugtt6141121/article/details/139306863

版权

生成词云图的话需要先对数据进行分词处理 , 分词方法点击查看


import pandas as pd
from collections import Counter
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 假设您已经按照之前的步骤处理了数据，并且处理后的数据保存在'comments_processed.csv'文件中
# 读取处理后的数据
df = pd.read_csv('comments_processed.csv', encoding='utf-8-sig')

# 假设处理后的词汇存储在'connected_words'列中
words = ' '.join(df['connected_words'].values)
cleaned_stt = ' '.join(words.strip().split())

# 使用 split() 方法将字符串分割为列表
word_list = cleaned_stt.split(' ')
word_counts = Counter(word_list)

# 提取前20个高频词（如果词的数量少于20个，则提取所有）
top_words = word_counts.most_common(80)

# 准备用于生成词云的数据
# 将高频词和它们的词频分开
top_words_list, top_words_freq = zip(*top_words)

# 将词频列表转换为字典，用于wordcloud的权重参数
word_freq_dict = dict(top_words)
word_freq_dict1 = {'性能': 3351, '外观': 1086, '舒适': 806, '环保': 591, '智能': 433, '越野': 416, '坐在': 400, '前排': 389, '东西': 367, '拥挤': 360, '座椅': 338, '很大': 305, '储物': 304, '不错': 303, '车子': 277, '足够': 266, '腿部': 263, '舒服': 242, '设计': 238, '车内': 231}
word_freq_dict.update(word_freq_dict1)
print(word_freq_dict)
# 创建词云对象，并指定字体（确保支持中文）
wordcloud = WordCloud(width=1200, height=800, background_color='white',
                      font_path=fr'fonts\xiawuxiheixinban.ttf'  # 或者其他支持中文的字体文件路径
                      ).generate_from_frequencies(word_freq_dict)

# 显示词云图
plt.figure(figsize=(8, 8), facecolor=None)
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.tight_layout(pad=0)

plt.show()