今天给大家带来了python抓取b站小视频的小爬虫

image

首先打开小视频 的网页

url = http://vc.bilibili.com/p/eden/rank#/?tab=%E5%85%A8%E9%83%A8

然后我们来分析下url:

image

​​点击排行榜,默认全部显示,往下拉滚动条,发现网页是动态加载的,然后我们打开审查元素(快捷键F12),这里我用的是火狐浏览器,先清空然后往下拉进度条,就出来了动态加载的所有信息:

image

​找到下图所示的内容

image

这个就是动态加载的内容,我们点击它,看下它有些什么东西

image

响应里面,可以看到是json格式保存的内容,包括视频的简介,视频url等等,而这些就是我们今天的目标了!最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你可以联系维:762459510 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~

我们先来获取消息头里面的真实网址!

image

观察规律找到翻页的控制参数和请求模式,next_offset=后面控制视频的加载,以10的倍数翻页,请求模式为get

然后就可以开始写代码了!

首先导入模块,我们今天要用到的模块很少

import requests, time, random,re

这几个模块都可以用pip来安装,命令是:pip install 库名

其中用time和random模块是用于爬取内容时的时间间隔

好了,先写个获取源码的函数

image

头部信息在消息头里面的请求头,大家自行修改为自己的就好!

因为我们要依次保存mp4格式的视频文件,所以这里我提供给大家一个小函数,用于剔除文件名中的不规范符号,用了re模块!

image

这里说明下,这段代码是在网上找的,懒的敲了

先来获取每次加载的url,注意第一次加载的url和后面加载的不一致,用if函数。最后,如果你的时间不是很紧张,并且又想快速的提高,最重要的是不怕吃苦,建议你可以联系维:762459510 ,那个真的很不错,很多人进步都很快,需要你不怕吃苦哦!大家可以去添加上看一下~

分析整个页面发现,排行榜只有100个视频,10个一批加载,所以直接写入循环,然后用json方式获取我们需要的内容即可,非常简单的一个爬虫。

完整代码和运行结果奉上!

image

image

需要注意的是在下载视频文件的时候,需要加入头部信息,不然下载不了的!

喜欢就点个赞呗!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值