最近在B站发现一个弹琵琶的小姐姐,真的是人美歌甜啊啊啊,所以打算爬取她的视频来分析弹幕同时制作词云。
查找相关信息之后发现,爬取B站弹幕的API接口有两个,分别是
https://api.bilibili.com/x/v1/dm/list.so?oid=cid
http://comment.bilibili.com/+cid+.xml
后面需要加上需要爬取的视频文件的cid。B站的每个视频都有自己独特的av号,bv号和cid。通过av号和bv号可以确定视频的地址,cid可以确定弹幕文件的地址。
任意打开一个弹幕文件,例如
http://comment.bilibili.com/197603144.xml
我们可以发现弹幕就在这个网页文件中。
- 获取B站视频的cid
打开B站,任意找一个视频,右键单击鼠标,点击“检查”。