python爬取bilibili信息（一）

最新推荐文章于 2024-04-10 08:44:15 发布

小白巨白

最新推荐文章于 2024-04-10 08:44:15 发布

阅读量1.4k

点赞数 6

分类专栏： python的应用 python bilibili 文章标签： python html

本文链接：https://blog.csdn.net/weixin_45837168/article/details/104523355

版权

python 同时被 3 个专栏收录

8 篇文章 0 订阅

订阅专栏

python的应用

5 篇文章 0 订阅

订阅专栏

bilibili

3 篇文章 0 订阅

订阅专栏

爬取哔哩哔哩（bilibili）

本人不是计算机专业的专业人员，在书写上会有专业型误差请您谅解，有问题或者错误可以通过笔者qq邮箱：183605463@qq.com
进行沟通，在此感谢您的观看。

初心：

我是一个小白，并且成功的爬取了，我相信大家一定也没问题，所以我的文章涉及到的比较基础，所以比较繁多，我将利用好时间一点一点地为大家推送，希望可以坚持下去，有所学，有所成长。

提前准备：

在网上下载pycharm
有可以查看网页代码的浏览器（建议用谷歌）

Pycharm 是使用python工作时，一个比较强大的软件。利用pycharm可以给你一种美观的外观，字体可以随意调整，第三方库也可以自由下载。我将在另一个文章中仔细说明pycharm的安装

接下来一步步开始你的爬取喽！

第一步主要是观察：

在你的浏览器中打开，哔哩哔哩（bilibili）官网。去随意搜索 ”美食 “，“吃货”，主要观察浏览器中网址的变化，以图片为例

在这里插入图片描述

主要观察两图片的链接，可发现两个链接的区别

https://search.bilibili.com/all?keyword=（查找内容）

当我们点击，浏览到第二页时，观察此时的链接：

https://search.bilibili.com/all?keyword=（查找内容）page= （页数）

后面有个page 页面，通过这些分析我们可以试着调整（搜索内容），page后面的值观察页面的变化。

到这里我们，就有初次看的页面有了一定的了解。
接下来，按右键查找网页的源代码
在这里插入图片描述
刚看到这个代码，我是初学者，刚看到这个时脑子有点懵，但是我们作为信息的提取这，我们要知道提取唯一的可检索的标签。这里我们提到正则表达式。

什么是正则表达式呢？正则表达式是一种用于检索，搜索的网页代码组合。可以代表某些值，检索某些值。对于python来说，是第三方库需要下载并引用。

import re
text ='''
<html>
	<span>
	<id class="asda"></id>
	<id class ="sefv"></id>
	</span>
	<span class = "name">我要学python </span>
	<span class = "fanm">不能放弃 </span>
</html>
'''

list = re.findall(r'"fanm">(.*?)</span>',text,re.S)
#用re（正则表达式，得出来的是列表）
print(list)
#不能放弃

笔记：
Ctrl + f ：搜索
在这里插入图片描述
可以为你找到，合适的搜索代码，然后使用re，主要是观察是否为唯一，可以用re。

这回就为大家说到这里，学习地内容有很多，看看你是否掌握。

源代码检索
re库的使用
pycharm的安装、使用
自己想想按F12的开发者工具与源代码的区别
要给自己加个油(⊙o⊙)？

对了，在bilbili，也叫小白巨白，为大家视频讲解，欢迎大家前去观看！

小白巨白

关注

6
点赞
踩
13

收藏

觉得还不错? 一键收藏
6
评论
python爬取bilibili信息（一）

爬取哔哩哔哩（bilibili）本人不是计算机专业的专业人员，在书写上会有专业型误差请您谅解，有问题或者错误可以通过笔者qq邮箱：183605463@qq.com进行沟通，在此感谢您的观看。初心：我是一个小白，并且成功的爬取了，我相信大家一定也没问题，所以我的文章涉及到的比较基础，所以比较繁多，我将利用好时间一点一点地为大家推送，希望可以坚持下去，有所学，有所成长。提前准备：在网...
复制链接

扫一扫