本次是萌新爬虫的第三弹,这回咱整个好活——
爬取B站弹幕!!!
因为本人也是高纯度萌新,涉及到的很多模块和方法都是高人指点的(生活不易菜鸡叹气)
网址如下:https://www.bilibili.com
看到眼花缭乱的弹幕很想统统爪巴下来是吧?
别着急,且听下回分解(错乱)
1.导入模块
#爬取B站弹幕
import bs4
import pandas
import re
import requests
2.保存文件
file_name="越共探头.txt"#弹幕保存文件
3.获取页面
当打开一个B站视频,按下F12后进入网络,在其一系列数目庞杂的数据报文中有一类所谓“心跳包”的heartbeat需要引人注意:
点击标头进入其中,发现参数cid,这就是一个突破点——
因为弹幕存储在相应参数的.xml网页中!
以上就是我们需要的目标url
#获取页面
cid=410337606
url="https://comment.bilibili.com/"+str(cid)+".xml"
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)