爬虫案例二:分页

阅读本文前可先参考前文:爬虫案例一:基础

前言

我在秋招期间,有幸做了一家电商公司的线上题目,然后发现这个题目比较全面,所以我就准备以这个题目为核心写个系列教程,不过为了公平起见,我就不写公司名字了。

题目网站

题目

  • 点击进入第二个题目
    在这里插入图片描述
  • 题目描述和提交答案的地方
    在这里插入图片描述
  • 题目提供的网页
    在这里插入图片描述

如何分析

  • 根据前一篇文章我们已经知道了如何获取单页面上的所有的数字,那么如何获取多页面上的数字呢,这里我们点击翻页观察一下 URL
    在这里插入图片描述在这里插入图片描述
  • 这里我们发现除了 page= 后面的页数 其余都是不变的,所以我们只需要根据 URL 的生成规则把所有页面的 URL 拼接生成即可,然后把生成的 URL 按照单页面的获取方式获取页面

拼接生成1000页的URL

  • 代码
    #range 方法在不指定第一个参数的情况下是返回从0开始的数字列表,然后后面指定到哪里截止
    for page in range(1,1001):
        url='http://glidedsky.com/level/web/crawler-basic-2?page=%s'%page
        print(url)
    
  • 运行结果
    在这里插入图片描述

封装好单个页面获取值的方法

  • 这部分的分析请看上篇文章,代码如下
    import requests
    from bs4 import BeautifulSoup
    
    #计算方法,根据传入的url请求网页并计算返回网页上值的合
    def calculate(url):
        headers={
         
            'Host':'glidedsky.com',
            'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0'
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值