一、准备数据
来自他人的GitHub:地址


只需要用 NLP_tools/NLP/tf_char_rnn/周杰伦歌词大全_cleaned.txt 文件就好了
二、代码
# coding=gbk
import jieba
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from collections import Counter
text = list(open(r'周杰伦歌词大全_cleaned.txt', encoding='utf-8'))
punctuations = ['!', '"', '#', '$', '%', '&', '\'', '(', ')', '*', '+', ',', '-', '.', '/', ':', ';', '<', '=', '>',
'?', '@', '[', '\\', ']', '^', '_', '`', '{', '|', '}', '~', "\n", "\t", ' ', '“', '”']
stop_words = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '、', '。', '《', '》', '一', '一些', '一何', '一切',
'一则', '一方面', '一旦', '一来', '一样', '一般', '一转眼', '万一', '上', '上下', '下', '不', '不仅', '不但', '不光', '不单', '不只',
'不外乎', '不如', '不妨', '不尽', '不尽然', '不得', '不怕', '不惟', '不成', '不拘', '不料', '不是', '不比', '不然', '不特', '不独', '不管',
'不至于', '不若', '不论', '不过', '不问', '与', '与其', '与其说', '与否', '与此同时', '且', '且不说', '且说', '两者', '个', '个别', '临',
'为', '为了', '为什么', '为何', '为止', '为此', '为着', '乃', '乃至', '乃至于', '么', '之', '之一', '之所以', '之类', '乌乎', '乎', '乘',
'也', '也好', '也罢', '了', '二来', '于', '于是', '于是乎', '云云', '云尔', '些', '亦', '人', '人们', '人家', '什么', '什么样', '今',
'介于', '仍', '仍旧', '从', '从此', '从而', '他', '他人', '他们', '以', '以上', '以为', '以便', '以免', '以及', '以故', '以期', '以来',
'以至', '以至于', '以致', '们', '任', '任何', '任凭', '似的', '但', '但凡', '但是', '何', '何以', '何况', '何处', '何时', '余外', '作为',
'你', '你们', '使', '使得', '例如', '依', '依据', '依照', '便于', '俺', '俺们', '倘', '倘使', '倘或', '倘然', '倘若', '借', '假使',
'假如', '假若', '傥然', '像', '儿', '先不先', '光是', '全体', '全部', '兮', '关于', '其', '其一', '其中', '其二', '其他', '其余', '其它',
'其次', '具体地说', '具体说来', '兼之', '内', '再', '再其次', '再则', '再有', '再者', '再者说', '再说', '冒', '冲', '况且', '几', '几时',
'凡', '凡是', '凭', '凭借', '出于', '出来',

该博客围绕周杰伦歌词词云生成展开。首先介绍从他人GitHub获取数据,仅需特定歌词文件。接着说明代码仅涉及歌词和代码文件。展示运行效果图后,提及遇到生成词云速度慢和编码问题,分别采用统计词频和查看编码格式的方法解决。
最低0.47元/天 解锁文章
1110

被折叠的 条评论
为什么被折叠?



