前言
在进行数据爬取的时候,出现如下错误,一直显示response.status_code为418

1. 原理
执行程序的时候一直返回418,最根本的原因是因为网站的反爬程序返回的结果
查询溯源,其解释权为
418 I’m a teapot
The HTTP 418 I’m a teapot client error response code indicates that the server
refuses to brew coffee because it is a teapot. This error is a reference to Hyper
Text Coffee Pot Control Protocol which was an April Fools’ joke in 1998
网址中添加了反爬程序识别,我们爬取数据的时候会返回418的结果。
我们使用的请求requests由于没有添加请求头的一些信息,被反爬程序识别,而得到418结果
为了阻止这种结果,爬取成功,可以在请求头中加入一些信
在Python爬虫过程中遇到HTTP状态码418的问题,根源是网站的反爬策略。通过了解,418是服务器识别到爬虫请求导致的。解决方法是模拟浏览器头部信息,在请求头中添加User-Agent,以避免被识别为爬虫。代码中展示如何修改请求头来添加User-Agent,确保爬取成功。
订阅专栏 解锁全文
1万+

被折叠的 条评论
为什么被折叠?



