《呐喊》词云制作(学习笔记)

以呐喊小说词云图制作进行简单尝试,不做分词、停用词、背景图处理

import os
#文件地址
print(os.getcwd())

#引入包
from wordcloud import WordCloud
import matplotlib.pyplot as plt

#只读打开文件
text=open('呐喊.txt','r',encoding='utf-8').read()
#中文字体路径
font=r'C:\\Windows\\fonts/simkai.ttf'

#生成词云
wc=WordCloud(font_path=font,width=800,height=600).generate(text)
plt.imshow(wc)
plt.axis('off')
plt.show()
wc.to_file('呐喊.jpg')

运行出现错误,经查看为文件命名:wordcloud,与wordcloud包重复

更正文件名字后,可以正常显示,词云图正常显示

选取呐喊序言中某句话:“我在年青时候也曾经做过许多梦,后来大半忘却了,但自己也并不以为可惜”,进行分词处理

import jieba
#基础分词
words=jieba.cut("我在年青时候也曾经做过许多梦,后来大半忘却了,但自己也并不以为可惜")
print("/ ".join(words))

输出结果为

我/ 在/ 年青/ 时候/ 也/ 曾经/ 做过/ 许多/ 梦/ ,/ 后来/ 大半/ 忘却/ 了/ ,/ 但/ 自己/ 也/ 并/ 不/ 以为/ 可惜

 Python join是将序列中的元素以指定的字符连接生成一个新的字符串

#将序列中的元素以指定的字符连接生成一个新的字符串
str=""
seq=("我","在","年青","时候")
print(str.join(seq))

str为没有空格,最后输出为以上词语相连

我在年青时候

对该句话利用jieba中posseg分析词性

#标注词性
import jieba.posseg as pseg
words=pseg.cut("我在年青时候也曾经做过许多梦,后来大半忘却了,但自己也并不以为可惜")
for key in words:
    print(key.word,key.flag)

输出结果如下

我 r
在 p
年青 n
时候 n
也 d
曾经 d
做 v
过 ug
许多 m
梦 n
, x
后来 t
大半 m
忘却 v
了 ul
, x
但 c
自己 r
也 d
并 c
不 d
以为 c
可惜 v

呐喊小说分词

import jieba
#分词并统计
with open('呐喊.txt','r',encoding='utf-8') as n:
    renmin=n.read()
jieba.load_userdict('dict.txt')
seg_list=jieba.cut(renmin,cut_all=False)
#print("/".join(seg_list))

tf={}
for seg in seg_list:
    if seg in tf:
        tf[seg]+=1
    else:
        tf[seg]=1

#停用词
ci=list(tf.keys())
with open('stopword.txt','r',encoding='utf-8') as ft:
    stopword=ft.read()

for seg in ci:
    if tf[seg]<5 or len(seg)<2 or seg in stopword or "一" in seg:
        tf.pop(seg)
print(tf)

输出结果如下

{'------------': 24, '呐喊': 7, '大半': 7, '忘却': 21, '可惜': 16, '寂寞': 15, '精神': 9, '年纪': 8, '柜台': 10, '衣服': 11, '父亲': 16, '回家': 17, '冬天': 6, '三年': 8, '东西': 53, '终于': 43, '我要': 9, '学堂': 12, '仿佛': 46, '母亲': 56, '社会': 7, '只得': 9, '儿子': 30, '世上': 5, '历史': 9, '记得': 26, '先前': 23, '议论': 13, '渐渐': 29, '日本': 10, '学校': 11, '回来': 24, '方法': 5, '学生': 14, '其时': 6, '自然': 23, '讲堂': 5, '中国': 24, '显出': 18, '神情': 10, '示众': 6, '围着': 5, '便是': 42, '看客': 6, '空气': 5, '幸而': 12, '几个': 42, '名目': 7, '生命': 7, '文字': 5, '剩下': 6, '三个': 5, '无可': 5, '将来': 15, '感到': 12, '无聊': 5, '当初': 10, '反对': 6, '独有': 5, '这是': 28, '悲哀': 9, '回到': 15, '古代': 11, '青年': 16, '院子': 16, '女人': 48, '屋里': 6, '有人': 15, '暗暗': 8, '坐在': 23, '放在': 9, '桌上': 6, '长衫': 14, '对面': 8, '坐下': 11, '研究': 8, '文章': 9, '懂得': 6, '人来': 6, '屋子': 13, '希望': 13, '却是': 7, '答应': 10, '最初': 20, '小说': 13, '模样': 12, '朋友': 13, '可笑': 5, '明天': 18, '嫂子': 39, '机会': 5, '十二月': 6, '三日': 6, '鲁迅': 9, '北京': 29, '注释': 15, '作者': 17, '留学': 6, '工作': 9, '革命': 20, '人物': 20, '正传': 21, '思想': 11, '别传': 5, '正史': 5, '实在': 20, '未曾': 6, '英国': 5, '小说家': 7, '两个': 34, '第二日': 5, '太爷': 40, '秀才': 38, '两碗': 5, '本家': 13, '第二天': 12, '地保': 12, '家里': 20, '满脸': 5, '开口': 9, '几步': 6, '胡说': 5, '嘴巴': 5, '确凿': 5, '外面': 16, '未必': 7, '不该': 9, '提起': 7, '仔细': 9, '也许': 12, '写作': 7, '是因为': 6, '声音': 30, '只好': 7, '流行': 5, '老例': 5, '未庄': 39, '早经': 8, '算是': 6, '行状': 6, '帮忙': 11, '留心': 6, '眼睛': 32, '土谷祠': 17, '短工': 6, '长久': 6, '记起': 6, '做工': 7, '老头子': 25, '面前': 17, '这话': 8, '喜欢': 9, '文童': 5, '尊敬': 6, '有钱': 6, '几回': 9, '长凳': 5, '城里': 11, '乡下人': 12, '本来': 26, '身上': 12, '通红': 8, '怒目而视': 6, '见面': 5, '照例': 15, '这时候': 17, '头上': 11, '底下': 7, '辫子': 62, '这才': 10, '心满意足': 5, '得胜': 5, '胜利': 6, '老子': 5, '畜生': 6, '说道': 30, '虫豸': 5, '地方': 15, '这回': 14, '不到': 12, '酒店': 20, '睡着': 10, '铜钱': 6, '腰间': 6, '晚上': 14, '戏台': 10, '耳朵': 17, '不见': 21, '诧异': 6, '走进': 6, '洋钱': 10, '用力': 7, '脸上': 19, '愤愤': 6, '忽而': 23, '想到': 13, '得意': 14, '起身': 13, '孤孀': 5, '奇怪': 9, '向来': 8, '街上': 11, '王胡': 14, '旁边': 6, '夹袄': 8, '工夫': 7, '嘴里': 7, '不平': 14, '地上': 16, '唾沫': 5, '胡子': 9, '两手': 8, '墙上': 5, '动手': 9, '意外': 6, '皇帝': 18, '举人': 25, '赵家': 14, '远远': 8, '走来': 9, '不肯': 13, '假洋鬼子': 22, '肚子': 6, '历来': 5, '正气': 5, '轻轻': 6, '赶紧': 12, '指着': 6, '孩子': 46, '发生': 7, '慢慢': 28, '门口': 7, '早已': 14, '尼姑': 23, '大声': 12, '走近': 10, '和尚': 6, '飘飘然': 9, '听得': 10, '小鸡': 6, '凄凉': 5, '异样': 8, '古怪': 8, '滑腻': 5, '指头': 8, '听到': 28, '放心': 6, '男人': 8, '男女': 5, '几句': 5, '可恶': 7, '时常': 9, '晚饭': 7, '回去': 12, '府上': 5, '不准': 12, '睡觉': 8, '偶然': 5, '大爷': 5, '吴妈': 11, '太太': 36, '吃饭': 11, '老爷': 26, '放下': 8, '烟管': 9, '发抖': 6, '大叫': 5, '竹杠': 6, '赵府': 6, '邹七嫂': 15, '白眼': 9, '司晨': 8, '走出': 12, '房里': 7, '分明': 12, '身边': 7, '手里': 13, '夜间': 7, '赤膊': 7, '妈妈': 9, '造反': 16, '现钱': 6, '毡帽': 5, '门槛': 7, '大钱': 9, '太阳': 15, '原因': 5, '张开': 5, '跟着': 10, '确乎': 7, '事情': 9, '不许': 5, '情形': 7, '手执': 5, '钢鞭': 7, '几天': 16, '站住': 6, '伸手': 6, '三步': 5, '头发': 12, '放松': 5, '回过': 8, '路上': 9, '出门': 8, '熟识': 5, '馒头': 10, '走过': 6, '想要': 6, '不多时': 5, '走到': 5, '迟疑': 7, '四面': 9, '萝卜': 8, '四个': 8, '黑狗': 7, '进城': 14, '上城': 8, '告诉': 7, '掌柜': 21, '点头': 10, '发财': 5, '叹息': 6, '称为': 6, '走路': 5, '杀头': 8, '好看': 6, '革命党': 23, '多久': 5, '问道': 8, '小心': 7, '听说': 7, '慌忙': 5, '气愤': 6, '不吃': 9, '说出': 6, '故事': 6, '九月': 7, '箱子': 5, '白盔': 6, '白甲': 6, '禁不住': 7, '眼光': 13, '可怜': 12, '舒服': 5, '六月': 7, '低声': 7, '交给': 5, '说不出': 7, '妹子': 6, '看时': 11, '回答': 5, '上午': 8, '消息': 6, '顶上': 5, '当作': 5, '政府': 13, '招呼': 5, '明白': 10, '航船': 10, '七斤': 54, '危险': 6, '夏天': 7, '头顶': 5, '生活': 7, '靠着': 8, '柿油党': 5, '不行': 7, '大门': 5, '只见': 12, '乌黑': 7, '多长': 5, '说话': 9, '背后': 7, '勇气': 9, '门外': 6, '抬出': 6, '器具': 5, '寂静': 9, '屋子里': 6, '发出': 5, '明明': 6, '抓进': 5, '衙门': 9, '栅栏门': 6, '半天': 9, '疑心': 12, '惭愧': 5, '圆圈': 8, '职务': 5, '像是': 5, '发昏': 5, '脑里': 6, '不住': 7, '看着': 12, '不远': 5, '本篇': 18, '发表': 20, '六年': 5, '我国': 12, '语见': 12, '论语': 7, '三月': 6, '中说': 6, '清代': 10, '旧时': 11, '名称': 7, '辛亥革命': 8, '北洋军阀': 5, '语出': 5, '七月': 10, '时代': 5, '下文': 6, '迷信': 5, '绍兴': 6, '记载': 6, '上海': 15, '清朝': 5, '清末': 5, '官僚': 8, '白光': 6, '陈士成': 12, '看过': 6, '下午': 6, '脸色': 8, '眼前': 11, '绅士': 5, '七个': 5, '真的': 7, '灯火': 5, '月亮': 6, '祖母': 5, '全是': 5, '锄头': 5, '小东西': 5, '其间': 5, '远处': 5, '恍然大悟': 5, '死尸': 5, '指甲': 5, '计算': 6, '方玄绰': 7, '少年': 10, '车夫': 11, '教员': 12, '索薪': 6, '要钱': 6, '昨天': 7, '店家': 5, '五月': 5, '亲领': 5, '初八': 7, '去年': 6, '嘴唇': 6, '摇头': 5, '尝试': 5, '呜呜': 6, '场上': 5, '九斤': 11, '老太': 10, '六斤': 13, '天气': 7, '公公': 8, '早晨': 6, '鲁镇': 8, '龙庭': 8, '大赦': 5, '咸亨': 12, '忍不住': 5, '七爷': 21, '金圣叹': 5, '筷子': 5, '长毛': 6, '从前': 8, '缎子': 5, '自言自语': 5, '书上': 6, '偏要': 6, '着眼': 5, '众人': 5, '十月': 6, '日记': 5, '故乡': 11, '时时': 8, '我家': 7, '宏儿': 8, '木器': 5, '闰土': 16, '日期': 6, '海边': 7, '沙地': 5, '五行': 7, '贝壳': 6, '终日': 5, '冷笑': 6, '现出': 5, '水生': 9, '前天': 5, '孔乙己': 34, '茴香豆': 6, '花白': 8, '不出': 5, '晓得': 14, '四月': 5, '赵贵': 5, '伤心': 5, '老五': 7, '佃户': 7, '大哥': 24, '心思': 7, '静静的': 5, '立着': 5, '巡警': 6, '监督': 5, '蓝皮': 7, '单四': 35, '宝儿': 21, '粗笨': 5, '银元': 5, '阿五': 10, '王九妈': 10, '棺木': 5, '看戏': 6, '老旦': 9, '老生': 5, '外祖母': 7, '平桥': 8, '赵庄': 8, '双喜': 14, '船头': 7, '十月十日': 5, '双十节': 8, '纪念': 5, '邹容': 5, '乌鸦': 6, '黑猫': 6, '小兔': 8, '爱罗先': 14, '仲密': 5, '小鸭': 7, '小栓': 18, '咳嗽': 6, '老栓': 26, '大妈': 15, '大叔': 8}

词语较多,进行词频排序查看,通过高频词了解书籍主题

#排序
ci=list(tf.keys())
num=list(tf.values())
data=[]
#print(ci)
#print(num)

for i in range(len(tf)):
    data.append((num[i],ci[i]))#num 词频 ci 词语
#data.reverse()
#逆序排列
#print(data)
data.sort()
#升序排列
print(data)

tf_sorted={}
#len()方法返回列表元素个数
print(len(data))
#data[0]表示第1个元组
print(data[0])
#data[0][0]]表示第1个元组的第0个元素
print(data[0][0])
#data[0][1]表示从第1个元组的第1个元素
print(data[0][1])

输出共544个元组,词频最高前五的词语分别为:女人、东西、七斤、母亲、辫子

[(5, '七个'), (5, '三个'), (5, '三步'), (5, '不出'), (5, '不多时'), (5, '不许'), (5, '不远'), (5, '世上'), (5, '两碗'), (5, '五月'), (5, '交给'), (5, '亲领'), (5, '仲密'), (5, '众人'), (5, '伤心'), (5, '偶然'), (5, '像是'), (5, '全是'), (5, '六年'), (5, '其间'), (5, '凄凉'), (5, '几句'), (5, '别传'), (5, '前天'), (5, '北洋军阀'), (5, '十月十日'), (5, '历来'), (5, '原因'), (5, '发出'), (5, '发昏'), (5, '发财'), (5, '可笑'), (5, '唾沫'), (5, '嘴巴'), (5, '器具'), (5, '四月'), (5, '回答'), (5, '围着'), (5, '场上'), (5, '墙上'), (5, '多久'), (5, '多长'), (5, '大叫'), (5, '大爷'), (5, '大赦'), (5, '大门'), (5, '头顶'), (5, '孤孀'), (5, '小东西'), (5, '尝试'), (5, '店家'), (5, '府上'), (5, '张开'), (5, '当作'), (5, '得胜'), (5, '心满意足'), (5, '忍不住'), (5, '恍然大悟'), (5, '惭愧'), (5, '慌忙'), (5, '手执'), (5, '抓进'), (5, '招呼'), (5, '指甲'), (5, '摇头'), (5, '放松'), (5, '文字'), (5, '文童'), (5, '方法'), (5, '无可'), (5, '无聊'), (5, '日记'), (5, '时代'), (5, '木器'), (5, '机会'), (5, '柿油党'), (5, '棺木'), (5, '正史'), (5, '正气'), (5, '死尸'), (5, '毡帽'), (5, '沙地'), (5, '流行'), (5, '清朝'), (5, '清末'), (5, '滑腻'), (5, '满脸'), (5, '灯火'), (5, '熟识'), (5, '独有'), (5, '现出'), (5, '男女'), (5, '监督'), (5, '着眼'), (5, '确凿'), (5, '祖母'), (5, '空气'), (5, '立着'), (5, '第二日'), (5, '筷子'), (5, '箱子'), (5, '粗笨'), (5, '纪念'), (5, '绅士'), (5, '终日'), (5, '缎子'), (5, '老例'), (5, '老子'), (5, '老生'), (5, '职务'), (5, '胡说'), (5, '自言自语'), (5, '舒服'), (5, '英国'), (5, '虫豸'), (5, '见面'), (5, '讲堂'), (5, '语出'), (5, '走到'), (5, '走路'), (5, '赵贵'), (5, '远处'), (5, '迷信'), (5, '邹容'), (5, '金圣叹'), (5, '银元'), (5, '锄头'), (5, '长凳'), (5, '静静的'), (5, '顶上'), (6, '三日'), (6, '三月'), (6, '下午'), (6, '下文'), (6, '中说'), (6, '乌鸦'), (6, '书上'), (6, '人来'), (6, '伸手'), (6, '偏要'), (6, '其时'), (6, '冬天'), (6, '冷笑'), (6, '几步'), (6, '剩下'), (6, '十二月'), (6, '十月'), (6, '危险'), (6, '去年'), (6, '反对'), (6, '发抖'), (6, '叹息'), (6, '呜呜'), (6, '和尚'), (6, '咳嗽'), (6, '嘴唇'), (6, '好看'), (6, '妹子'), (6, '尊敬'), (6, '小鸡'), (6, '屋子里'), (6, '屋里'), (6, '巡警'), (6, '怒目而视'), (6, '想要'), (6, '意外'), (6, '愤愤'), (6, '懂得'), (6, '抬出'), (6, '指着'), (6, '放心'), (6, '故事'), (6, '旁边'), (6, '日期'), (6, '早晨'), (6, '明明'), (6, '是因为'), (6, '月亮'), (6, '有钱'), (6, '未曾'), (6, '栅栏门'), (6, '桌上'), (6, '气愤'), (6, '消息'), (6, '现钱'), (6, '留学'), (6, '留心'), (6, '畜生'), (6, '白光'), (6, '白甲'), (6, '白盔'), (6, '看客'), (6, '看戏'), (6, '看过'), (6, '短工'), (6, '示众'), (6, '称为'), (6, '站住'), (6, '竹杠'), (6, '算是'), (6, '索薪'), (6, '绍兴'), (6, '肚子'), (6, '胜利'), (6, '脑里'), (6, '腰间'), (6, '茴香豆'), (6, '行状'), (6, '要钱'), (6, '计算'), (6, '记起'), (6, '记载'), (6, '诧异'), (6, '说出'), (6, '贝壳'), (6, '走过'), (6, '走进'), (6, '赵府'), (6, '轻轻'), (6, '铜钱'), (6, '长久'), (6, '长毛'), (6, '门外'), (6, '黑猫'), (7, '不住'), (7, '不行'), (7, '乌黑'), (7, '九月'), (7, '五行'), (7, '佃户'), (7, '低声'), (7, '做工'), (7, '六月'), (7, '写作'), (7, '初八'), (7, '却是'), (7, '发生'), (7, '只好'), (7, '可恶'), (7, '名目'), (7, '名称'), (7, '听说'), (7, '告诉'), (7, '呐喊'), (7, '嘴里'), (7, '夏天'), (7, '外祖母'), (7, '夜间'), (7, '大半'), (7, '天气'), (7, '小心'), (7, '小说家'), (7, '小鸭'), (7, '工夫'), (7, '底下'), (7, '心思'), (7, '情形'), (7, '我家'), (7, '房里'), (7, '提起'), (7, '方玄绰'), (7, '昨天'), (7, '晚饭'), (7, '未必'), (7, '海边'), (7, '生命'), (7, '生活'), (7, '用力'), (7, '真的'), (7, '确乎'), (7, '社会'), (7, '禁不住'), (7, '老五'), (7, '背后'), (7, '船头'), (7, '蓝皮'), (7, '论语'), (7, '说不出'), (7, '赤膊'), (7, '身边'), (7, '迟疑'), (7, '钢鞭'), (7, '门口'), (7, '门槛'), (7, '黑狗'), (8, '三年'), (8, '上午'), (8, '上城'), (8, '两手'), (8, '从前'), (8, '公公'), (8, '出门'), (8, '双十节'), (8, '古怪'), (8, '司晨'), (8, '向来'), (8, '四个'), (8, '回过'), (8, '圆圈'), (8, '大叔'), (8, '夹袄'), (8, '宏儿'), (8, '官僚'), (8, '对面'), (8, '小兔'), (8, '平桥'), (8, '年纪'), (8, '异样'), (8, '指头'), (8, '放下'), (8, '早经'), (8, '时时'), (8, '暗暗'), (8, '杀头'), (8, '男人'), (8, '睡觉'), (8, '研究'), (8, '脸色'), (8, '花白'), (8, '萝卜'), (8, '赵庄'), (8, '辛亥革命'), (8, '这话'), (8, '远远'), (8, '通红'), (8, '问道'), (8, '靠着'), (8, '鲁镇'), (8, '龙庭'), (9, '不吃'), (9, '不该'), (9, '事情'), (9, '仔细'), (9, '几回'), (9, '动手'), (9, '勇气'), (9, '半天'), (9, '历史'), (9, '只得'), (9, '喜欢'), (9, '四面'), (9, '大钱'), (9, '奇怪'), (9, '妈妈'), (9, '寂静'), (9, '工作'), (9, '开口'), (9, '悲哀'), (9, '我要'), (9, '放在'), (9, '文章'), (9, '时常'), (9, '水生'), (9, '烟管'), (9, '白眼'), (9, '精神'), (9, '老旦'), (9, '胡子'), (9, '衙门'), (9, '说话'), (9, '走来'), (9, '路上'), (9, '飘飘然'), (9, '鲁迅'), (10, '七月'), (10, '听得'), (10, '少年'), (10, '当初'), (10, '戏台'), (10, '日本'), (10, '明白'), (10, '柜台'), (10, '洋钱'), (10, '清代'), (10, '点头'), (10, '王九妈'), (10, '睡着'), (10, '神情'), (10, '答应'), (10, '老太'), (10, '航船'), (10, '走近'), (10, '跟着'), (10, '这才'), (10, '阿五'), (10, '馒头'), (11, '九斤'), (11, '古代'), (11, '吃饭'), (11, '吴妈'), (11, '坐下'), (11, '城里'), (11, '头上'), (11, '学校'), (11, '帮忙'), (11, '思想'), (11, '故乡'), (11, '旧时'), (11, '看时'), (11, '眼前'), (11, '街上'), (11, '衣服'), (11, '车夫'), (12, '不准'), (12, '不到'), (12, '也许'), (12, '乡下人'), (12, '分明'), (12, '只见'), (12, '可怜'), (12, '咸亨'), (12, '回去'), (12, '地保'), (12, '大声'), (12, '头发'), (12, '学堂'), (12, '幸而'), (12, '感到'), (12, '我国'), (12, '教员'), (12, '模样'), (12, '疑心'), (12, '看着'), (12, '第二天'), (12, '语见'), (12, '走出'), (12, '赶紧'), (12, '身上'), (12, '陈士成'), (13, '不肯'), (13, '六斤'), (13, '小说'), (13, '屋子'), (13, '希望'), (13, '想到'), (13, '手里'), (13, '政府'), (13, '朋友'), (13, '本家'), (13, '眼光'), (13, '议论'), (13, '起身'), (14, '不平'), (14, '双喜'), (14, '学生'), (14, '得意'), (14, '早已'), (14, '晓得'), (14, '晚上'), (14, '爱罗先'), (14, '王胡'), (14, '赵家'), (14, '这回'), (14, '进城'), (14, '长衫'), (15, '上海'), (15, '回到'), (15, '地方'), (15, '大妈'), (15, '太阳'), (15, '寂寞'), (15, '将来'), (15, '有人'), (15, '注释'), (15, '照例'), (15, '邹七嫂'), (16, '几天'), (16, '可惜'), (16, '地上'), (16, '外面'), (16, '父亲'), (16, '造反'), (16, '闰土'), (16, '院子'), (16, '青年'), (17, '作者'), (17, '回家'), (17, '土谷祠'), (17, '耳朵'), (17, '这时候'), (17, '面前'), (18, '小栓'), (18, '明天'), (18, '显出'), (18, '本篇'), (18, '皇帝'), (19, '脸上'), (20, '人物'), (20, '发表'), (20, '实在'), (20, '家里'), (20, '最初'), (20, '酒店'), (20, '革命'), (21, '七爷'), (21, '不见'), (21, '宝儿'), (21, '忘却'), (21, '掌柜'), (21, '正传'), (22, '假洋鬼子'), (23, '先前'), (23, '坐在'), (23, '尼姑'), (23, '忽而'), (23, '自然'), (23, '革命党'), (24, '------------'), (24, '中国'), (24, '回来'), (24, '大哥'), (25, '举人'), (25, '老头子'), (26, '本来'), (26, '老栓'), (26, '老爷'), (26, '记得'), (28, '听到'), (28, '慢慢'), (28, '这是'), (29, '北京'), (29, '渐渐'), (30, '儿子'), (30, '声音'), (30, '说道'), (32, '眼睛'), (34, '两个'), (34, '孔乙己'), (35, '单四'), (36, '太太'), (38, '秀才'), (39, '嫂子'), (39, '未庄'), (40, '太爷'), (42, '便是'), (42, '几个'), (43, '终于'), (46, '仿佛'), (46, '孩子'), (48, '女人'), (53, '东西'), (54, '七斤'), (56, '母亲'), (62, '辫子')]
544
(5, '七个')
5
七个

制作词云图,并从背景图提取色彩

(mask最好选择色彩较少,背景为白色的图片,否则可能出现轮廓不明显的词云图)

import os
#文件路径
print(os.getcwd())

from wordcloud import WordCloud
import matplotlib.pyplot as plt

#中文字体路径
font=r'C:\\Windows\\fonts/simkai.ttf'

from PIL import Image
import numpy as np
mask=np.array(Image.open("cloud.png"))#相对路径

from wordcloud import WordCloud,ImageColorGenerator

#生成词云
wc=WordCloud(font_path=font,background_color='white',mask=mask,width=800,height=600)  
wc.generate_from_frequencies(tf)#根据给定词频生成词云
image_colors=ImageColorGenerator(mask)

plt.imshow(wc.recolor(color_func=image_colors))#从原图提取色彩,如果是黑白图像会报错
plt.axis('off')
plt.show()
wc.to_file('呐喊词云.jpg')

输出词云图如下

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值