【网络爬虫】使用Python披露采集Up主视频详情信息

最新推荐文章于 2024-10-17 21:11:22 发布

Python_魔力猿

最新推荐文章于 2024-10-17 21:11:22 发布

阅读量470

点赞数

文章标签： python 爬虫音视频开发语言学习

本文链接：https://blog.csdn.net/weixin_68789096/article/details/130644652

版权

本文介绍了如何使用Python编写网络爬虫，从B站获取特定Up主「祖国街景」的视频Bvid和其他信息。通过分析网址规律，构建爬虫代码，最终成功抓取到258个视频的数据，包括字段详细信息。适合对Python爬虫感兴趣的读者学习。

摘要由CSDN通过智能技术生成

在这里插入图片描述

一、问题

看到一个B站账号-祖国街景，使用行车记录仪记录中国城市，同时该账号还有youtube账号(中国街景)， 感觉视频的评论和弹幕可以用来做城市形象方面的数据分析。

但是需要有每个视频的Bvid才能采集。今天要分享的内容是如何获取某Up主的所有视频对应的Bvid等信息 。完整的爬虫撰写步骤:

发现网址规律，获得批量url
对某个url发起成功的访问
解析该url对应的网页数据
存储到csv
对所有url，重复步骤2-4

为了减少工作量，我就简单分析下网址规律，直接上代码。

二、网址规律

要获取某Up主视频Bvid等信息，只需要获得视频列表mid值，如下图。

在这里插入图片描述

找网址规律的方法是打开开发者工具Network面板，在当前网页刷新，按照截图标号顺序点击鼠标，得到网址规律(下方截图红3)。剔除了对结果影响不大的参数，最终得到网址规律模板 template 。

template =  'https://api.bilibili.com/x/space/wbi/arc/search?mid={mid}&ps=30&pn={page}'

在这里插入图片描述

三、爬虫代码

下方代码只需要改变 Up 主 mid 值，其他地方不要改动。我设置了限速，每秒访问一次，直接运行代码，假设Up主有 9 页，程序大概运行 9s 左右。

import requests
import csv
import time


headers = {
   "user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36"}
template =  'https://api.bilibili.com/x/space/wbi/arc/search?mid={mid}&ps=30&pn={page}'

#只需更改这个参数，就能爬视频列表信息
mid = '373489046'


with open('{mid}_infos.csv'.format(mid=mid), 'w', encoding='utf-8', newline='') as csvf:
    fieldnames = ['comment', 'typeid', 'play', 'pic', 'subtitle', 'description', 'copyright', 'title',