Python爬虫假死的解决

Sijin_Yu

已于 2023-11-20 19:53:35 修改

阅读量1.4k

点赞数

分类专栏：技术开发文章标签： python 爬虫

于 2022-12-16 01:14:30 首次发布

本文链接：https://blog.csdn.net/yusijinfs/article/details/128337433

版权

技术开发专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Python爬虫假死的解决

Author: Sijin Yu
最近做项目遇到Python爬虫假死, 即爬虫即不报错也不输出异常, 也没有发生死循环, 但是一直卡在一个地方不继续工作.
查阅资料找到一些解决方案. 因为搜索内容比较零散, 打算做个整理, 若有遗漏欢迎补充.
本文为原创, 若有转载请说明出处.

1. 设置timeout

例如

res = requests.get(url, headers=headers, timeout=2)

也可以分别设置请求等待时间和响应等待时间, 例如

res = requests.get(url, headers=headers, timeout=(2,5))

这里表示请求等待2s, 响应等待5s, 若超过等待时间, 则抛出一个 ConnectTimeout 异常.

2. 使用socket添加HTTP的强制超时

import socket
socket.setdefaulttimeout(10)

3. 考虑你的程序有没有卡在DNS解析

这个观点是在这篇文章看到的:https://www.cnblogs.com/niansi/p/7143736.html
如果你使用的是Linux机器, 可以考虑: 直接修改linux机器的hosts文件，指定域名访问的ip地址，免去解析dns的步骤.
另外, 在爬虫时, DNS解析往往会浪费比较多的时间, 为了提高效率, 可以用将DNS解析缓存到本地, 这样在同一个域名下爬取时可以节约DNS解析的时间. 参考文章: https://blog.csdn.net/bone_ace/article/details/55000101