1、思路
B站的视频弹幕由三层关键词可以锁定,第一层是检索的关键词,第二层是每个视频的bvid,第三曾是每个视频的oid,相关的获取API网上都有。爬虫使用的是request,构建词云使用的wordCloud,中间还嵌套使用了正则、数据分析部分内容。总体的思路是:
- 根据关键词检索视频
- 根据每个视频的标示bvid得到标示该视频弹幕的oid
- 根据oid请求弹幕,并解析弹幕数据
- 根据获取的弹幕数据构建词云
2、源码
#!/usr/bin/env python # -*- coding: utf-8 -*- import matplotlib.pyplot as plt from wordcloud import WordCloud, STOPWORDS import requests import json import chardet import re # <a href="//www.bilibili.com/video/BV1o64y1u77p?from=search" title=" class GenWordCloud: def __init__(self,filename): self.filename=filename +'.txt' print('filename=',self.filename) def SearchVideo(self): search_name = input('您想要爬取的视频关键字是?\n(输入完毕请按回车):') pages = 2# 设置爬取的总页数 for page in range(1, pages): # 翻页循环 url = ('https://se