python 断点续爬的实现思路

最新推荐文章于 2023-06-13 16:10:37 发布

俞什么涛

最新推荐文章于 2023-06-13 16:10:37 发布

阅读量2.1k

点赞数 2

分类专栏：爬虫文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xtc11/article/details/116650663

版权

爬虫专栏收录该内容

1 篇文章 0 订阅

订阅专栏

断点续爬：是执行过一次的爬虫，再一次执行不是从头开始而是从上一次爬取的点继续爬取。

主要是在爬取的过程中记录下当前的状态，在开始爬虫的时候要判断一下是否有对应的爬虫状态记录。

根据需要爬取的数据大小和类型的不同可以使用不同方式实现断点续爬。

爬取少数量的文件或者图片的情况，可以在request得到页面信息的同时比对已经存储的数据是否存在类似：os.path.exists(responses)的代码，存在则跳过
如果可以只爬取几张页面就可以构建后面需要爬取的所有url，可以在构建完url后将url持久化存储，在之后每次将该页面数据存储成功后就将该url删除
爬取大量数据，在request的同时记录下当前this_url和this_url标识（类似于这个this_url是几级类目），在存储完成当前this_url的数据同时，得到下一个页面的next_url，删除this_url，进入下一个请求

这是我的一些个人想法思路，还有什么更好的实现思路或者可以改进上面思路的想法，可以在评论区一起讨论进步！

这里是y1t！！

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python 断点续爬的实现思路

断点续爬：是执行过一次的爬虫，再一次执行不是从头开始而是从上一次爬取的点继续爬取。主要是在爬取的过程中记录下当前的状态，在开始爬虫的时候要判断一下是否有对应的爬虫状态记录。根据需要爬取的数据大小和类型的不同可以使用不同方式实现断点续爬。爬取少数量的文件或者图片的情况，可以在request得到页面信息的同时比对已经存储的数据是否存在类似：os.path.exists(responses)的代码，存在则跳过如果可...
复制链接

扫一扫

专栏目录

博客等级

码龄5年

1
原创

2
点赞

6
收藏

0
粉丝

关注

私信

热门文章

python 断点续爬的实现思路 2173

分类专栏

爬虫 1篇

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。