前言
利用Python实现抓取芒果TV弹幕,废话不多说。
让我们愉快地开始吧~
开发工具
Python版本: 3.6.4
相关模块:
requests模块;
pandas模块
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
思路分析
本文以爬取电影《悬崖之上》为例,讲解如何爬取芒果TV视频的弹幕和评论!
目标网址
https://www.mgtv.com/b/335313/12281642.html?fpa=15800&fpos=8&lastp=ch_movie
抓取弹幕
分析网址
弹幕数据所在的文件是动态加载的,需要进入浏览器的开发者工具进行抓包,得到弹幕数据所在的真实url。当视频播放一分钟它就会更新一个json数据包,里面包含我们需要的弹幕数据。
获取真实的URL
https://bullet-ali.hitv.com/bullet/2021/08/14/005323/12281642/0.json\
https://bullet-ali.hitv.com/bullet/2021/08/14/005323/12281642/1.json
可以发现,每条url的差别在于后面的数字,首条url为0,后面的逐步递增。视频一共120:20分钟,向上取整,也就是121条数据包。
代码实现
import requests\
import pandas as pd\
\
headers = {
\
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; W