呃呃,这个好像用处不怎么大,就当玩一玩,直接看代码,代码中有很多注释
# -*- coding: utf-8 -*-
# 它可以模拟浏览器向网站发送一个请求[命令]
import requests
'''
编写爬虫的过程中
基于html去分析网页数据并删选
** 使用浏览器去分析这个网站的接口 [api] 找到它之后利用
requests去请求这个api 拿到api的数据[json] 字典 基本数据结构
利用字典的特性去获取字典中的数据并下载
'''
# 去获取api 利用requests去访问这个接口 模拟浏览器
# 禁止非浏览器访问的代码 一律禁止访问
# 防止爬虫去过度的向服务器发请求 哔哩哔哩的后台服务器会出现过载的情况
def get_json(url):
# 伪装成浏览器向这个接口拿数据 作用域
#headers 是请求头
headers = {
'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; WOW64; rv:68.0) Gecko/20100101 Firefox/68.0'
}
# 分析api这个链接
# 在api中 会有一些关键字
# 如果这些关键字改变的话 那它返回的值也是不一样的
#构建api关键字参数
params = {
'page_size': 10,
#动态参数
'next_offset': str(num),
'tag': '今日热门',
'platform': 'pc',
}
#请求api的数据
try:
# 获取api的所有数据
html = requests.get(url, par