爬取某讯天堂的张望弹幕词云生成图

9 篇文章 1 订阅
3 篇文章 0 订阅

腾讯天堂的张望弹幕词云生成

大家好,好久没更新自己的博客了,以后会每天进行更新自己的博客内容,也希望大家会学到更多的知识

前言

我们都知道某讯上出了一部电影《天堂的张望》


好了废话不多说,直接进入今天的主题。

一、数据爬取

看图学习知识

二、使用步骤

代码如下(示例):

在这里插入图片描述
在这里插入图片描述
从这里我们可以看出此数据为json数据,然后有分布效果,每次加30从5天始。

timestamp=255  #为多少秒中的弹幕
_=1610986643495 #时间戳

下面是我自己写的代码

import requests
import time
import random
import json
import re
from wordcloud import WordCloud
import matplotlib.pyplot as plt  # 绘制图像的模块
import jieba  # jieba分词


def get( i ):
    url = 'https://mfm.video.qq.com/danmu?otype=json&callback=jQuery19105942130006951676_1610952785512&target_id=6338957303%26vid%3De0035p7rvvr&session_key=23007%2C0%2C1610952788&timestamp={}&_={}'.format(
        str(int(i) + int(5)), str(int(time.time() * 1000)))

    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
    }
    data = requests.get(url, headers=headers).text

    data_json = json.loads(data[41:-1])  # 进入python切割利用json实例化转

    '''

    content 评论内容
    '''
    try:

        for i in data_json['comments']:
            content = re.findall('[\u4e00-\u9fa5]*', i['content'])[0]
            print(content)
            with open('天堂的张望.txt', 'a', encoding='utf-8') as f:
                f.write(content)
    except UnicodeEncodeError as e:
        pass


def get_WordCloud():
    path_txt = '天堂的张望.txt'

    f = open(path_txt, 'r',encoding='utf-8').read()

    # 结巴分词,生成字符串,wordcloud无法直接生成正确的中文词云

    cut_text = " ".join(jieba.cut(f))
    # 进行字符的不关键词过滤
    exclude = {'我', '的', '是', '他', '就', '人', '这', '也', '了', \
               '说', '没', '啊', '你', '这是', '那是', '而是', '而且', '虽然', \
               '这些', '有些', '然后', '已经', '于是', '一种', '一个', '一样', '时候', \
               '没有', '什么', '这样', '这种', '这里', '不会', '一些', '这个', '仍然', '不是', \
               '自己', '知道', '可以', '看到', '那儿', '问题', '一会儿', '一点', '现在', '两个', \
               '三个', \
               }
    wordcloud = WordCloud(

        # 设置字体,不然会出现口字乱码,文字的路径是电脑的字体一般路径,可以换成别的

        font_path="清松手寫體.ttf",

        # 设置了背景,宽高

        background_color="white", width=1920, height=1080, stopwords=exclude).generate(cut_text)

    plt.imshow(wordcloud, interpolation="bilinear")

    plt.axis("off")
    # plt.to_file('123.png')
    plt.show()


if __name__ == '__main__':

    for i in range(0, 5):
        time.sleep(random.randint(1, 5))
        i = i * 30
        get(str(i))
    get_WordCloud()

这里为整体代码,在家如果有不懂可以在下方评论


效果显示

从图片我们可以看出这部电影很感人,7岁的张望和父亲张国华相依为生,生活虽是清贫,但父女俩还是生活的很幸福。一天张望突然流鼻血不止,去大医院检查,才知得了急性白血病,治疗需要30多万的费用,筹钱无果的张国华整日以泪洗面;而张望,清楚自己的家庭情况,毅然决定放弃治疗。记者王小月得知此事,赶往张国华家中,牵出了张望的真实身世。事件经媒体曝光后,张望引起社会各界关注,全国各地纷纷捐款资助,很快,张望的医疗费就凑够了。感受到社会爱的力量和无数陌生人的关心,也使张望变得无比坚强,她用常人难以想象的痛苦接受着治疗,并一次一次经历着鬼门关,然而就在所有人都期盼着张望的病情好起来的时候,张望却做出了一个出乎所有人意料的决定
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值