GreenHand爬虫系列03——爬取B站弹幕

本次是萌新爬虫的第三弹,这回咱整个好活——
爬取B站弹幕!!!
因为本人也是高纯度萌新,涉及到的很多模块和方法都是高人指点的(生活不易菜鸡叹气)

网址如下:https://www.bilibili.com

在这里插入图片描述
看到眼花缭乱的弹幕很想统统爪巴下来是吧?
在这里插入图片描述
别着急,且听下回分解(错乱)

1.导入模块

#爬取B站弹幕
import bs4
import pandas
import re
import requests

2.保存文件

file_name="越共探头.txt"#弹幕保存文件

3.获取页面

当打开一个B站视频,按下F12后进入网络,在其一系列数目庞杂的数据报文中有一类所谓“心跳包”的heartbeat需要引人注意:在这里插入图片描述
点击标头进入其中,发现参数cid,这就是一个突破点——
因为弹幕存储在相应参数的.xml网页中!
在这里插入图片描述
以上就是我们需要的目标url

#获取页面
cid=410337606
url="https://comment.bilibili.com/"+str(cid)+".xml"
headers={
   "User-Agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值