阅读本文前可先参考前文:爬虫案例一:基础
前言
我在秋招期间,有幸做了一家电商公司的线上题目,然后发现这个题目比较全面,所以我就准备以这个题目为核心写个系列教程,不过为了公平起见,我就不写公司名字了。
题目网站
题目
- 点击进入第二个题目
- 题目描述和提交答案的地方
- 题目提供的网页
如何分析
- 根据前一篇文章我们已经知道了如何获取单页面上的所有的数字,那么如何获取多页面上的数字呢,这里我们点击翻页观察一下
URL
- 这里我们发现除了
page=
后面的页数 其余都是不变的,所以我们只需要根据URL
的生成规则把所有页面的URL
拼接生成即可,然后把生成的URL
按照单页面的获取方式获取页面
拼接生成1000页的URL
- 代码
#range 方法在不指定第一个参数的情况下是返回从0开始的数字列表,然后后面指定到哪里截止 for page in range(1,1001): url='http://glidedsky.com/level/web/crawler-basic-2?page=%s'%page print(url)
- 运行结果
封装好单个页面获取值的方法
- 这部分的分析请看上篇文章,代码如下
import requests from bs4 import BeautifulSoup #计算方法,根据传入的url请求网页并计算返回网页上值的合 def calculate(url): headers={ 'Host':'glidedsky.com', 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0'