爬虫案例一：基础

最新推荐文章于 2024-10-08 16:37:40 发布

CoderYYN

最新推荐文章于 2024-10-08 16:37:40 发布

阅读量1.7k

点赞数 7

分类专栏： Python 爬虫爬虫案例文章标签：爬虫案例

本文链接：https://blog.csdn.net/ychgyyn/article/details/101797941

版权

前言

我在秋招期间，有幸做了一家电商公司的线上题目，然后发现这个题目比较全面，所以我就准备以这个题目为核心写个系列教程，不过为了公平起见，我就不写公司名字了。

题目网站

网址：http://glidedsky.com/login
需要注册一个账号，需要邮箱验证
注册成功后，就会看到第一个题目了，点击进入题目
题目描述和提交答案的地方
题目提供的网页

如何分析

首先根据题目要求，我们得知我们的目标是对一个页面上面的所有数字进行求和
所以我们先要解决如何获取页面内容，然后再解决如何解析获取到所有的数字标签

获取网页内容

这里我们使用requests库来作为我们的请求库
打开浏览器开发者工具，点击重新载入，然后点击第一条请求，点击响应，然后我们发现页面内容正好是页面上所展示的，所以目标明确了，就是模拟这条请求获取网页内容
点击消息头回到初始位置，这里就是请求的相关信息，具体参数说明请参考：HTTP基本原理
然后我们把url、请求头都复制出来，并且对请求头简单格式处理一下

然后就可以编辑代码了

import requests
url='http://glidedsky.com/level/web/crawler-basic-1'
headers={
     
    'Host':'glidedsky.com',
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:70.0) Gecko/20100101 Firefox/70.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
    'Accept-Encoding':'gzip, deflate',
    'Referer':'http://glidedsky.com/level/crawler-basic-1',
    'Connection':'keep-alive',
    'Cookie':'XSRF-TOKEN=eyJ

最低0.47元/天解锁文章