Python:爬取数据出现response.status_code为418解决方法

在Python爬虫过程中遇到HTTP状态码418的问题,根源是网站的反爬策略。通过了解,418是服务器识别到爬虫请求导致的。解决方法是模拟浏览器头部信息,在请求头中添加User-Agent,以避免被识别为爬虫。代码中展示如何修改请求头来添加User-Agent,确保爬取成功。
摘要由CSDN通过智能技术生成

前言

在进行数据爬取的时候,出现如下错误,一直显示response.status_code为418
在这里插入图片描述

1. 原理

执行程序的时候一直返回418,最根本的原因是因为网站的反爬程序返回的结果
查询溯源,其解释权为

418 I’m a teapot
The HTTP 418 I’m a teapot client error response code indicates that the server 
refuses to brew coffee because it is a teapot. This error is a reference to Hyper 
Text Coffee Pot Control Protocol which was an April Fools’ joke in 1998

网址中添加了反爬程序识别,我们爬取数据的时候会返回418的结果。
我们使用的请求requests由于没有添加请求头的一些信息,被反爬程序识别,而得到418结果

为了阻止这种结果,爬取成功,可以在请求头中加入一些信

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

码农研究僧

你的鼓励将是我创作的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值