scrapy的手动请求发送实现全站数据爬取

最新推荐文章于 2024-06-12 22:52:28 发布

小黑班♪(･ω･)ﾉ

最新推荐文章于 2024-06-12 22:52:28 发布

阅读量187

点赞数

分类专栏： scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_49487589/article/details/116724642

版权

本文介绍了如何使用Scrapy进行手动请求，以爬取一个段子库的全站数据。首先，文章说明了Scrapy在访问和数据分析上的基本操作，然后详细阐述了如何处理分页问题，通过手动发送GET/POST请求来遍历所有页面。作者创建了一个测试工程，并在爬虫文件中进行了相应的修改，包括设置解析函数、递归处理页码等。在手动请求部分，提到了callback的使用和formdata参数的设置。最后，作者分享了完整代码，并对遇到的问题进行了总结，指出在解析时要注意某些内容可能嵌套在其他元素中导致解析异常。

摘要由CSDN通过智能技术生成

测试

目的是使用scrapy爬取段子库单品类全数据。

结构

scrapy能够访问和数据分析，问题在于怎么去到下一页再次调用。一是手动将分页网址粘贴到start_urls中，一是使用手动发送请求。

创建测试工程，创建爬虫文件，settings.py三步修改

在这里插入图片描述

对段子库中对应页码网址的数据进行爬取解析

在这里插入图片描述

修改items.py，回到爬虫文件导入模块并提交管道

在这里插入图片描述

settings.py里将item打开

在这里插入图片描述

页码递归，限定条件

在这里插入图片描述

手动请求的方式（get/post）

yield scrapy.Request(url,callback)：GET callback指定解析函数，用于解析数据

yield scrapy.FormRequest(url,callback,formdata):POST formdata字典，请求参数，在这里不能使用request中的data=data，formdata是制定参数

start_urls列表中的url会被自动进行get请求，是因为列表中的url其实是被start_requests这个父类方法实现的get请求发送

def start_requests(self):
        for u

最低0.47元/天解锁文章

小黑班♪(･ω･)ﾉ

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。