生成词云的函数

 

写的一个生成词云的函数

这个是没有自定义图版本

#coding:utf-8
__author__ = '英俊'

import warnings
warnings.filterwarnings("ignore")
#codecs提供的open方法来指定打开的文件的语言编码,它会在读取的时候自动转换为内部unicode 
import codecs   
#分词包
import jieba    
#统计
import pandas as pd  
#numpy计算包
import numpy    
#可视化
import matplotlib.pyplot as plt
#展示在当前页面中
%matplotlib inline
import matplotlib
#设置大小
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
from wordcloud import WordCloud#词云包

def createWordCloud(text_path):
#     "./data/entertainment_news.csv"
    df = pd.read_csv(text_path, encoding='utf-8')
    # 去掉空行
    df = df.dropna()
#     df.head()
    #将数据变成List
    content=df.content.values.tolist()
    segment=[]
    for line in content:
        try:
            #列表
            segs=jieba.lcut(line) 
            for seg in segs:
                #判断是否为空或者是不是换行词
                if len(seg)>1 and seg!='\r\n':
                    segment.append(seg)
        except:
            print(line)
            continue
    words_df=pd.DataFrame({'segment':segment})
#     words_df.head()
    stopwords=pd.read_csv("data/stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')#quoting=3全不引用
#     stopwords.head()
# 先抽取在停用词里面的分词词组,然后再将它去掉
    words_df=words_df[~words_df.segment.isin(stopwords.stopword)]
#     words_df.head()
    # 这一块是个难点,词频统计
    words_stat = words_df.groupby('segment').agg(计数=pd.NamedAgg(column='segment', aggfunc='size')).reset_index().sort_values(
    by='计数', ascending=False)
#     words_stat.head()
    # font_path因为中文文本做词云很麻烦,backgrou_color是设置背景底,max是文本的最大大小
    wordcloud=WordCloud(font_path="data/simhei.ttf",background_color="white",max_font_size=80)
    #这是一个字典生成,x[0]是词是什么,x[1]是词的数量
    word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
    #生成词云
    wordcloud=wordcloud.fit_words(word_frequence)
    plt.imshow(wordcloud)

调用函数

createWordCloud("./data/entertainment_news.csv")

生成词云

 

加入自定义图片的

from scipy.misc import imread
#词云大小
matplotlib.rcParams['figure.figsize'] = (15.0, 15.0)

from wordcloud import WordCloud,ImageColorGenerator

def createSuperWordCloud(text_path,image_path):
#     "./data/entertainment_news.csv"
    df = pd.read_csv(text_path, encoding='utf-8')
    # 去掉空行
    df = df.dropna()
#     df.head()
    #将数据变成List
    content=df.content.values.tolist()
    segment=[]
    for line in content:
        try:
            #列表
            segs=jieba.lcut(line) 
            for seg in segs:
                #判断是否为空或者是不是换行词
                if len(seg)>1 and seg!='\r\n':
                    segment.append(seg)
        except:
            print(line)
            continue
    words_df=pd.DataFrame({'segment':segment})
#     words_df.head()
    stopwords=pd.read_csv("data/stopwords.txt",index_col=False,quoting=3,sep="\t",names=['stopword'], encoding='utf-8')#quoting=3全不引用
#     stopwords.head()
# 先抽取在停用词里面的分词词组,然后再将它去掉
    words_df=words_df[~words_df.segment.isin(stopwords.stopword)]
#     words_df.head()
    # 这一块是个难点,词频统计
    words_stat = words_df.groupby('segment').agg(计数=pd.NamedAgg(column='segment', aggfunc='size')).reset_index().sort_values(
    by='计数', ascending=False)
    #读取图片生成背景
#     'image/entertainment.jpeg'
    bimg=imread(image_path)
    # 生成词云
    wordcloud=WordCloud(background_color="white",mask=bimg,font_path='data/simhei.ttf',max_font_size=200)
    #生成词频
    word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}

    wordcloud=wordcloud.fit_words(word_frequence)


    # 重新上色
    bimgColors=ImageColorGenerator(bimg)

    # 去掉off
    plt.axis("off")
    #重新填写背景
    plt.imshow(wordcloud.recolor(color_func=bimgColors))

调用函数:

createSuperWordCloud("./data/entertainment_news.csv",'image/entertainment.jpeg')

生成词云:

  • 0
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

南楚巫妖

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值