scrapy爬取多页面

最新推荐文章于 2024-08-24 16:34:34 发布

小码农叔叔

最新推荐文章于 2024-08-24 16:34:34 发布

阅读量6.8k

点赞数 5

分类专栏： python 文章标签： scrapy爬取多页面 scrapy循环爬取 scrapy爬取网站数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zhangcongyi420/article/details/102884976

版权

python 专栏收录该内容

15 篇文章 29 订阅 ¥9.90 ¥99.00

订阅专栏

本文介绍了如何使用Scrapy爬取分页网站数据，包括创建项目、配置settings、定义item、分析HTML结构、编写爬虫代码以及处理分页逻辑。在实践中，作者遇到了请求限制的问题，并给出了解决方案。

摘要由CSDN通过智能技术生成

前言

使用scrapy的目的是方便爬虫人员通过scrapy框架编写简单的代码，提取需要爬取的网站上有用的数据，其框架底层已经对爬虫的过程做了大量的逻辑处理，而爬虫人员只需按照指定的规则使用即可，个人觉得这其中最麻烦的工作在于分析要提取的网站html结构，然后使用解析器解析出需要的字段数据

在上一篇中，我们学会了使用scrapy爬取一个简单的网页，但那个是单页面的数据，现实中，很多网站的数据都是分页的，因此需要通过分页爬取才能把所有的数据全部提取出来，下面简单分享一下这个流程，本篇我们要爬取的网站如下，是一个段子的网站
在这里插入图片描述

1、创建scrapy的项目

通过这两个命令创建并初始化一个scrapy项目

scrapy startproject qsbk
scrapy genspider qsbk_spider "http://www.lovehhy.net"

创建完毕后，导入到pycharm编辑器中，项目的结构大家就比较熟悉了，这里不再过多解释

了解本专栏

小码农叔叔

关注

5
点赞
踩
24

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

小码农叔叔 谢谢鼓励

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。