一、问题
看到一个B站账号-祖国街景,使用行车记录仪记录中国城市,同时该账号还有youtube账号(中国街景), 感觉视频的评论和弹幕可以用来做城市形象方面的数据分析。
但是需要有每个视频的Bvid才能采集。今天要分享的内容是如何获取某Up主的所有视频对应的Bvid等信息 。完整的爬虫撰写步骤:
- 发现网址规律,获得批量url
- 对某个url发起成功的访问
- 解析该url对应的网页数据
- 存储到csv
- 对所有url, 重复步骤2-4
为了减少工作量, 我就简单分析下网址规律,直接上代码。
二、网址规律
要获取某Up主视频Bvid等信息,只需要获得视频列表mid值,如下图。
找网址规律的方法是打开开发者工具Network面板, 在当前网页刷新, 按照截图标号顺序点击鼠标, 得到网址规律(下方截图红3)。剔除了对结果影响不大的参数,最终得到网址规律模板 template 。
template = 'https://api.bilibili.com/x/space/wbi/arc/search?mid={mid}&ps=30&pn={page}'
三、 爬虫代码
下方代码只需要改变 Up 主 mid 值,其他地方不要改动。我设置了限速,每秒访问一次, 直接运行代码,假设Up主有 9 页, 程序大概运行 9s 左右。
import requests
import csv
import time
headers = {
"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"}
template = 'https://api.bilibili.com/x/space/wbi/arc/search?mid={mid}&ps=30&pn={page}'
#只需更改这个参数,就能爬视频列表信息
mid = '373489046'
with open('{mid}_infos.csv'.format(mid=mid), 'w', encoding='utf-8', newline='') as csvf:
fieldnames = ['comment', 'typeid', 'play', 'pic', 'subtitle', 'description', 'copyright', 'title',