Python爬了一半的数据出BUG了，等等！这一半数据还能用

最新推荐文章于 2024-04-26 23:15:16 发布

weixin_44099558

最新推荐文章于 2024-04-26 23:15:16 发布

阅读量1.2k

点赞数 1

分类专栏： python 爬虫文章标签： Python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44099558/article/details/85390047

版权

本文介绍了如何处理Python爬虫过程中遇到的数据断点续传问题，特别是当数据存储到MongoDB时如何确保不插入重复数据。通过使用`update_one()`方法，配合`$set`运算符和`upsert=True`参数，可以自动过滤已存在的记录，避免重复插入。以豆瓣电影TOP250为例，展示了如何在分页爬取时有效防止数据重复。

摘要由CSDN通过智能技术生成

相信你一定有过这样的经历：大晚上好不容易写好一个爬虫，添加了种种可能出现的异常处理，测试了很多遍都没有问题，点击了 RUN 开始正式运行。

第二天早上一睁眼就满心欢喜地冲到电脑前，结果发现爬虫半夜断了，你气得想要砸电脑，然后你看了一下 MongoDB 中爬了一半的数据，在想是删掉重新爬，还是保留下来接着爬。

Python爬了一半的数据出BUG了，等等！这一半数据还能用

Python爬了一半的数据出BUG了，等等！这一半数据还能用

到这儿问题就来了，删掉太可惜，接着爬很可能会爬到重复数据，虽然后期可以去重，但你有强迫症，就是不想爬到重复数据，怎么办呢？

这就遇到了「爬虫断点续传」问题，关于这个问题的解决方法有很多种，不过本文主要介绍数据存储到 MongoDB 时如何做到只插入新数据，而重复数据自动过滤不插入。

先来个简单例子，比如现在有两个 list ，data2 中的第一条数据和 data 列表中的第一条数据是重复的，我们想将这两个 list 依次插入 MnogoDB 中去，通常我们会使用 insert_one() 或者 insert_many() 方法插入，这里我们使用 insert_one() 插入

最低0.47元/天解锁文章

weixin_44099558

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python爬了一半的数据出BUG了，等等！这一半数据还能用

相信你一定有过这样的经历：大晚上好不容易写好一个爬虫，添加了种种可能出现的异常处理，测试了很多遍都没有问题，点击了 RUN 开始正式运行。第二天早上一睁眼就满心欢喜地冲到电脑前，结果发现爬虫半夜断了，你气得想要砸电脑，然后你看了一下 MongoDB 中爬了一半的数据，在想是删掉重新爬，还是保留下来接着爬。到这儿问题就来了，删掉太可惜，接着爬很可能会爬到重复数据，虽然后...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。