GreenHand爬虫系列03——爬取B站弹幕

本文链接：https://blog.csdn.net/weixin_45700280/article/details/121044628

本次是萌新爬虫的第三弹，这回咱整个好活——
爬取B站弹幕！！！
因为本人也是高纯度萌新，涉及到的很多模块和方法都是高人指点的（生活不易菜鸡叹气）

网址如下：https://www.bilibili.com

在这里插入图片描述
看到眼花缭乱的弹幕很想统统爪巴下来是吧？

别着急，且听下回分解（错乱）

1.导入模块

#爬取B站弹幕
import bs4
import pandas
import re
import requests

2.保存文件

file_name="越共探头.txt"#弹幕保存文件

3.获取页面

当打开一个B站视频，按下F12后进入网络，在其一系列数目庞杂的数据报文中有一类所谓“心跳包”的heartbeat需要引人注意：在这里插入图片描述
点击标头进入其中，发现参数cid，这就是一个突破点——
因为弹幕存储在相应参数的.xml网页中！

以上就是我们需要的目标url

#获取页面
cid=410337606
url="https://comment.bilibili.com/"+str(cid)+".xml"
headers={
   "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)