爬虫过程中遇到服务器返回500 Internal Server Error

在使用Python爬取网页信息的时候经常遇到网页返回500 Internal Server Error

该原因是因为爬取网页太过频繁,服务器将你的ip屏蔽掉了

解决方法

在请求头加上 Referer
打开网页按F12,点击Network,随便点击一行,在Request Header里面会有Referer的信息
在这里插入图片描述
然后使用time库每爬取一个页面休息几秒钟
import time
//此处的意思是停止5秒
time.sleep(5)

为了使爬虫更真实,我们还可以调用random库随机停止几秒
import random
import time

//随机停止5到15秒
time.sleep(random.randint(5, 15))

还有一个方法就是使用多个代理去爬取信息,此处便不介绍了

完美解决此问题

  • 7
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值