文 | 闲欢
来源:Python 技术「ID: pythonall」
经常有粉丝在后台留言,问:大佬,运行你的爬虫程序怎么报错了?
我让他把报错信息发过来,看过之后一声叹息。
大多数粉丝是直接拿着代码就开始运行,然后就是等待结果,完全不去仔细阅读和理解源码,遇到报错就直接过来询问。
多数爬虫源码运行的报错都是由于访问目标网站过于频繁,从而导致目标网站返回错误或者没有数据返回。
目前大多数网站都是有反爬措施的,如果 IP 在一定时间内 请求次数超过了一定的阈值就会触发反爬措施,拒绝访问,也就是我们经常听到的“封IP”。
那么怎么解决这个问题呢?
一种解决办法就是降低访问频率,访问一次就等待一定时长,然后再次访问。这种方法对于反爬措施不严格的网站是有效的。
如果遇到反爬措施严格的网站,访问次数多了还是会被封杀。而