Python:爬取数据出现response.status_code为418解决方法

最新推荐文章于 2024-07-02 22:49:22 发布

码农研究僧

最新推荐文章于 2024-07-02 22:49:22 发布

阅读量6.5k

点赞数 6

分类专栏： BUG 文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_47872288/article/details/120434748

版权

BUG 专栏收录该内容

281 篇文章 704 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

在Python爬虫过程中遇到HTTP状态码418的问题，根源是网站的反爬策略。通过了解，418是服务器识别到爬虫请求导致的。解决方法是模拟浏览器头部信息，在请求头中添加User-Agent，以避免被识别为爬虫。代码中展示如何修改请求头来添加User-Agent，确保爬取成功。

摘要由CSDN通过智能技术生成

前言

在进行数据爬取的时候，出现如下错误，一直显示response.status_code为418
在这里插入图片描述

1. 原理

执行程序的时候一直返回418，最根本的原因是因为网站的反爬程序返回的结果
查询溯源，其解释权为

418 I’m a teapot
The HTTP 418 I’m a teapot client error response code indicates that the server 
refuses to brew coffee because it is a teapot. This error is a reference to Hyper 
Text Coffee Pot Control Protocol which was an April Fools’ joke in 1998

网址中添加了反爬程序识别，我们爬取数据的时候会返回418的结果。
我们使用的请求requests由于没有添加请求头的一些信息，被反爬程序识别，而得到418结果

为了阻止这种结果，爬取成功，可以在请求头中加入一些信

了解本专栏