爬虫案例二：分页

最新推荐文章于 2023-11-15 16:10:43 发布

CoderYYN

最新推荐文章于 2023-11-15 16:10:43 发布

阅读量1k

点赞数 2

分类专栏： Python 爬虫爬虫案例文章标签：爬虫分页爬取案例

本文链接：https://blog.csdn.net/ychgyyn/article/details/101798099

版权

阅读本文前可先参考前文：爬虫案例一：基础

前言

我在秋招期间，有幸做了一家电商公司的线上题目，然后发现这个题目比较全面，所以我就准备以这个题目为核心写个系列教程，不过为了公平起见，我就不写公司名字了。

题目网站

网址：http://glidedsky.com/login

题目

点击进入第二个题目
题目描述和提交答案的地方
题目提供的网页

如何分析

根据前一篇文章我们已经知道了如何获取单页面上的所有的数字，那么如何获取多页面上的数字呢，这里我们点击翻页观察一下 URL
这里我们发现除了 page= 后面的页数其余都是不变的，所以我们只需要根据 URL 的生成规则把所有页面的 URL 拼接生成即可，然后把生成的 URL 按照单页面的获取方式获取页面

拼接生成1000页的URL

代码

#range 方法在不指定第一个参数的情况下是返回从0开始的数字列表，然后后面指定到哪里截止
for page in range(1,1001):
    url='http://glidedsky.com/level/web/crawler-basic-2?page=%s'%page
    print(url)

运行结果

封装好单个页面获取值的方法

这部分的分析请看上篇文章，代码如下

import requests
from bs4 import BeautifulSoup

#计算方法，根据传入的url请求网页并计算返回网页上值的合
def calculate(url):
    headers={
     
        'Host':'glidedsky.com',
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0'

最低0.47元/天解锁文章