python爬取bilibili信息(一)

爬取哔哩哔哩(bilibili)

本人不是计算机专业的专业人员,在书写上会有专业型误差请您谅解,有问题或者错误可以通过笔者qq邮箱:183605463@qq.com
进行沟通,在此感谢您的观看。

初心:

我是一个小白,并且成功的爬取了,我相信大家一定也没问题,所以我的文章涉及到的比较基础,所以比较繁多,我将利用好时间一点一点地为大家推送,希望可以坚持下去,有所学,有所成长。

提前准备:

  • 在网上下载pycharm
  • 有可以查看网页代码的浏览器(建议用谷歌)

Pycharm 是使用python工作时,一个比较强大的软件。利用pycharm可以给你一种美观的外观,字体可以随意调整,第三方库也可以自由下载。我将在另一个文章中仔细说明pycharm的安装

接下来一步步开始你的爬取喽!

第一步主要是观察:

在你的浏览器中打开,哔哩哔哩(bilibili)官网。去随意搜索 ”美食 “,“吃货”,主要观察浏览器中网址的变化,以图片为例

在这里插入图片描述
在这里插入图片描述
主要观察两图片的链接,可发现两个链接的区别

https://search.bilibili.com/all?keyword=(查找内容)

当我们点击,浏览到第二页时,观察此时的链接:

https://search.bilibili.com/all?keyword=(查找内容)page= (页数)

后面有个page 页面,通过这些分析我们可以试着调整(搜索内容),page后面的值观察页面的变化。

到这里我们,就有初次看的页面有了一定的了解。
接下来,按右键查找网页的源代码
在这里插入图片描述
刚看到这个代码,我是初学者,刚看到这个时脑子有点懵,但是我们作为信息的提取这,我们要知道提取唯一的可检索的标签。这里我们提到正则表达式。

什么是正则表达式呢?正则表达式是一种用于检索,搜索的网页代码组合。可以代表某些值,检索某些值。对于python来说,是第三方库需要下载并引用。

import re
text ='''
<html>
	<span>
	<id class="asda"></id>
	<id class ="sefv"></id>
	</span>
	<span class = "name">我要学python </span>
	<span class = "fanm">不能放弃 </span>
</html>
'''

list = re.findall(r'"fanm">(.*?)</span>',text,re.S)
#用re(正则表达式,得出来的是列表)
print(list)
#不能放弃

笔记:
Ctrl + f :搜索
在这里插入图片描述
可以为你找到,合适的搜索代码,然后使用re,主要是观察是否为唯一,可以用re。

这回就为大家说到这里,学习地内容有很多,看看你是否掌握。

  • 源代码检索

  • re库的使用

  • pycharm的安装、使用

  • 自己想想按F12的开发者工具与源代码的区别

  • 要给自己加个油(⊙o⊙)?

对了,在bilbili,也叫小白巨白,为大家视频讲解,欢迎大家前去观看!

  • 6
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 6
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值