Python爬哔哩哔哩的小视频

最新推荐文章于 2024-06-26 09:51:11 发布

代码写得好，bug找不到

最新推荐文章于 2024-06-26 09:51:11 发布

阅读量1.7k

点赞数 4

分类专栏： Python爬虫

本文链接：https://blog.csdn.net/weixin_44560813/article/details/99639195

版权

本文介绍如何使用Python爬取哔哩哔哩的小视频，通过获取正确的User-Agent和API，实现简单的网页抓取。代码包含详细注释。

摘要由CSDN通过智能技术生成

呃呃，这个好像用处不怎么大，就当玩一玩，直接看代码，代码中有很多注释

 # -*- coding: utf-8 -*- 
# 它可以模拟浏览器向网站发送一个请求[命令]
import requests
'''
编写爬虫的过程中
    基于html去分析网页数据并删选
    ** 使用浏览器去分析这个网站的接口 [api] 找到它之后利用
        requests去请求这个api 拿到api的数据[json] 字典 基本数据结构 
        利用字典的特性去获取字典中的数据并下载
'''
# 去获取api 利用requests去访问这个接口 模拟浏览器
# 禁止非浏览器访问的代码 一律禁止访问
# 防止爬虫去过度的向服务器发请求 哔哩哔哩的后台服务器会出现过载的情况
def get_json(url):
    # 伪装成浏览器向这个接口拿数据 作用域
    #headers 是请求头
    headers = {
        'User-Agent':
            'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0'
    }
    # 分析api这个链接
        # 在api中 会有一些关键字
        # 如果这些关键字改变的话 那它返回的值也是不一样的
    #构建api关键字参数
    params = {
        'page_size': 10,
        #动态参数
        'next_offset': str(num),
        'tag': '今日热门',
        'platform': 'pc',
    }
    #请求api的数据
    try:
        # 获取api的所有数据
        html = requests.get(url, par