腾讯天堂的张望弹幕词云生成
大家好,好久没更新自己的博客了,以后会每天进行更新自己的博客内容,也希望大家会学到更多的知识前言
我们都知道某讯上出了一部电影《天堂的张望》
好了废话不多说,直接进入今天的主题。
一、数据爬取
看图学习知识
二、使用步骤
代码如下(示例):
从这里我们可以看出此数据为json数据,然后有分布效果,每次加30从5天始。
timestamp=255 #为多少秒中的弹幕
_=1610986643495 #时间戳
下面是我自己写的代码
import requests
import time
import random
import json
import re
from wordcloud import WordCloud
import matplotlib.pyplot as plt # 绘制图像的模块
import jieba # jieba分词
def get( i ):
url = 'https://mfm.video.qq.com/danmu?otype=json&callback=jQuery19105942130006951676_1610952785512&target_id=6338957303%26vid%3De0035p7rvvr&session_key=23007%2C0%2C1610952788×tamp={}&_={}'.format(
str(int(i) + int(5)), str(int(time.time() * 1000)))
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
data = requests.get(url, headers=headers).text
data_json = json.loads(data[41:-1]) # 进入python切割利用json实例化转
'''
content 评论内容
'''
try:
for i in data_json['comments']:
content = re.findall('[\u4e00-\u9fa5]*', i['content'])[0]
print(content)
with open('天堂的张望.txt', 'a', encoding='utf-8') as f:
f.write(content)
except UnicodeEncodeError as e:
pass
def get_WordCloud():
path_txt = '天堂的张望.txt'
f = open(path_txt, 'r',encoding='utf-8').read()
# 结巴分词,生成字符串,wordcloud无法直接生成正确的中文词云
cut_text = " ".join(jieba.cut(f))
# 进行字符的不关键词过滤
exclude = {'我', '的', '是', '他', '就', '人', '这', '也', '了', \
'说', '没', '啊', '你', '这是', '那是', '而是', '而且', '虽然', \
'这些', '有些', '然后', '已经', '于是', '一种', '一个', '一样', '时候', \
'没有', '什么', '这样', '这种', '这里', '不会', '一些', '这个', '仍然', '不是', \
'自己', '知道', '可以', '看到', '那儿', '问题', '一会儿', '一点', '现在', '两个', \
'三个', \
}
wordcloud = WordCloud(
# 设置字体,不然会出现口字乱码,文字的路径是电脑的字体一般路径,可以换成别的
font_path="清松手寫體.ttf",
# 设置了背景,宽高
background_color="white", width=1920, height=1080, stopwords=exclude).generate(cut_text)
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
# plt.to_file('123.png')
plt.show()
if __name__ == '__main__':
for i in range(0, 5):
time.sleep(random.randint(1, 5))
i = i * 30
get(str(i))
get_WordCloud()
这里为整体代码,在家如果有不懂可以在下方评论
效果显示
从图片我们可以看出这部电影很感人,7岁的张望和父亲张国华相依为生,生活虽是清贫,但父女俩还是生活的很幸福。一天张望突然流鼻血不止,去大医院检查,才知得了急性白血病,治疗需要30多万的费用,筹钱无果的张国华整日以泪洗面;而张望,清楚自己的家庭情况,毅然决定放弃治疗。记者王小月得知此事,赶往张国华家中,牵出了张望的真实身世。事件经媒体曝光后,张望引起社会各界关注,全国各地纷纷捐款资助,很快,张望的医疗费就凑够了。感受到社会爱的力量和无数陌生人的关心,也使张望变得无比坚强,她用常人难以想象的痛苦接受着治疗,并一次一次经历着鬼门关,然而就在所有人都期盼着张望的病情好起来的时候,张望却做出了一个出乎所有人意料的决定