python爬虫_爬取B站视频标题

最新推荐文章于 2025-03-07 15:56:29 发布

「已注销」

最新推荐文章于 2025-03-07 15:56:29 发布

阅读量2.3k

点赞数 1

分类专栏： Python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45711556/article/details/113036581

版权

本文介绍了Python爬虫的基本概念，包括URL、正则表达式和爬虫流程。通过实例展示了如何爬取B站首页热门推荐视频的标题，包括请求数据、正则匹配和保存结果。爬虫流程包括向服务器发送请求，使用正则表达式匹配所需内容，并保存到本地。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

着手写爬虫前，需要了解的几个概念：

URL

全称 Uniform Resource Locator （统一资源定位器），格式为：协议+主机+端口+路径。

比如：https://www.bilibili.com/video/BV17x411w7KC

https:// 是协议，www.bilibili.com 是主机域名，这个例子中端口号并未在主机域名后指定，使用的是默认端口，/video/BV17x411w7KC 是文件路径。

简单来说，就是使用浏览器打开一个网页时，显示在最上方搜索栏中的内容。

正则表达式

通过使用一些预设的字符来创建的通常用于检索字符串的具有一定规则的文本。

需要掌握基本的用法。

比如这个正则表达式：a(.*?)z

可以匹配的字符串有：“abz”，“ab123z”，“ab123字符串z”。

除了以上三种，只要字符串满足第一个字符是 ‘a’，最后一个字符是 ‘z’，都可以被这个正则表达式匹配。因为表达式中的 (.*?) 表示匹配任意字符串。

爬虫

自动从网页上抓取数据的程序或者脚本。

为什么需要爬虫？

试想一下，当你在某壁纸网站闲逛时，发现一个分栏下的壁纸都很好看，想要将他们都下载下来，如果手动操作的话，你需要一张一张地点击下载，而如果使用爬虫，你则可以运行爬虫，然后冲一杯咖啡，稍等片刻，壁纸就都已经下载并保存到你的文件中了。

了解了基本的概念，再来了解爬虫的基本流程。

爬虫的三个主要流程：

（1）请求

向服务器发送请求，并得到服务器响应后返回的数据。

（2）匹配

对返回的数据使用正则表达式进行处理，匹配出需要的内容。

（3）保存

匹配出的内容通常为资源链接，我们通过解析该链接并发送请求，将获取到的数据保存到本地。

OK，开始写爬虫吧。

本次目标：爬取B站首页热门推荐视频标题

首先，我们需要导入必要的模块

#HTTP请求
import urllib
import urllib.request
#正则表达式
import re
#文件
import os

然后，我们依次实现爬虫的三个流程：

请求：

浏览器请求头需要我们进入网站按 f12 获取。<

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。