python爬取网页时返回“HTTP Error 418：”

最新推荐文章于 2025-04-08 23:22:30 发布

一只小小小太阳

最新推荐文章于 2025-04-08 23:22:30 发布

阅读量6.8k

点赞数 2

分类专栏： python 文章标签： 1024程序员节 python 爬虫

本文链接：https://blog.csdn.net/weixin_46545887/article/details/134022512

版权

python 专栏收录该内容

7 篇文章

订阅专栏

HTTP状态码418是一个非标准的HTTP状态码，被定义为"I’m a teapot"（我是一个茶壶）。这个状态码源自1998年的一个愚人节笑话，被写入了RFC 2324，Hyper Text Coffee Pot Control Protocol（超文本咖啡壶控制协议）。
在实际的Web开发中，有些网站可能会使用这个状态码作为反爬虫策略的一部分。当服务器返回418状态码时，可能是因为服务器认为你的请求是一个爬虫，而不是一个正常的用户请求。

解决方法：

修改你的请求头，使其看起来更像一个正常的用户。例如，你可以设置User-Agent为一个常见的浏览器的User-Agent。

定义一个确定的User-Agent

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0")

随机User-Agent

from fake_useragent import UserAgent
req.add_header('User-Agent',UserAgent().chrome)

如果网站使用了cookie来跟踪用户，你可能需要在你的爬虫中处理cookie。
（做了以上改动并未解决问题）
有些网站可能会检查请求之间的时间间隔，如果请求过于频繁，可能会被认为是爬虫。在这种情况下，你可以在你的请求之间添加一些延迟。

time.sleep(random.uniform(0, 0.02))#具体时间可以自行测试

至此该问题得到解决。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

一只小小小太阳

关注关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Python:爬取数据出现response.status_code为418解决方法

码农研究僧的博客

09-23

7134

目录前言1. 原理2. 代码前言在进行数据爬取的时候，出现如下错误，一直显示response.status_code为418 1. 原理执行程序的时候一直返回418，最根本的原因是因为网站的反爬程序返回的结果查询溯源，其解释权为 418 I’m a teapot The HTTP 418 I’m a teapot client error response code indicates that the server refuses to brew coffee because it is a

python爬取网页数据步骤,python爬取网页内容代码

2401_86114879的博客

07-01

497

这种情况即使是Python中级玩家也有概率会犯错，python3中的内置关键字：and,as,assert,break,class,continue,def,del,elif,else,except,False,finally,for,from,global,if,import,in,is,lambda,None,not,nonlocal,or,pass,raise,return,True,try,while,with,yield 大部分的开发环境都会用不同颜色来显示关键字。

参与评论您还未登录，请先登录后发表或查看评论

HTTP代码返回418＜Response [418]＞

pxyp123的博客

04-01

5444

爬虫入门程序：简单查看网页的内容。问题描述运行结果是没有问题的！但是不会出现结果！ import requests import bs4 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0"} res = requests.get("ht

HTTP状态码大盘点：从“404 Not Found“到“418我是茶壶“

最新发布

wujiayu31415的博客

04-08

811

作为每天上网冲浪的现代人，你一定见过各种HTTP状态码——特别是那个让人又爱又恨的"404 Not Found"。HTTP状态码远不止404一种，它们就像互联网世界的摩斯密码，默默传递着服务器与浏览器间的秘密信息。当你点击一个链接或输入网址时，你的浏览器会向服务器发送请求，而服务器则会返回一个三位数的状态码，告诉你请求的结果如何。这是最理想的状态，表示请求已成功，请求所希望的响应头或数据体将随此响应返回。服务器理解请求，但拒绝执行。网关超时，服务器作为网关或代理，没有及时从上游服务器收到请求。

Python爬虫HTTP异常：rllib.error.HTTPError: HTTP Error 418，伪装User-Agent以及fake-useragent插件的妙用

Java Punk

09-26

3751

通过本篇，你将学会如何将自己的【爬虫程序伪装成浏览器请求】，巧妙运用 fake-useragent 插件，并且学会破解【身份鉴别】类的反爬虫程序。

python爬取网页时response.status_code返回418，文件读取写入

01-20

问题： response.status_code为418 问题描述：当我使用Python的requests爬取网页时response和soup都是None，检查后发现response.status_code为418 错误描述：经过网上查询得知，418的意思是被网站的反爬程序返回的，网上解释为，418 I’m a teapot The HTTP 418 I’m a teapot client error response code indicates that the server refuses to brew coffee because it is a teapot. This

python爬虫----- Response [418]

d_eng_的博客

05-27

1583

错误代码418 修改之前的代码，无信息打印及错误信息提示，打印res，获取错误代码418： import requests import bs4 def down_douban_moviename(): res = requests.get("https://movie.douban.com/top250") soup = bs4.BeautifulSoup(res.text,"html.parser") targets = soup.find_all("div",class_="

打开网站URL遇到“HTTP Error 418：”问题

shenyuan12的专栏

08-06

1万+

问题：urllib.error.HTTPError: HTTP Error 418: 程序： import urllib.request response=urllib.request.urlopen('https://movie.douban.com/') html=response.read().decode('utf8') print(html) 运行程序读取网页时显示： “HTTP Error 418:”应该是网站的反爬程序返回的。在使用浏览器访问网站时，访问请求中包含请求头。检

案例爬取（其二）:Error:11004、状态码200但是返回None——自己坑自己的步骤

01-20

第二步：进行具体正文的提取，此时不止出现前面的代理问题：Error:10060,还时长出现Error:11004,和返回None 简直一脸懵逼，他妈的又全是英文，还不仅python错误，连window的各种错误都出来了！！！！！！！！！！！...

实例讲解Python爬取网页数据

09-20

根据提供的内容部分，可以总结出的Python爬取网页数据的知识点大致如上所述。由于技术原因或文档扫描问题，可能会有文字识别的偏差或遗漏，但不影响对核心知识点的理解和掌握。在编写自己的爬虫程序时，应结合具体的...

beautifulsoup爬取网页中的表格_用 Python 爬取网页

weixin_39756273的博客

11-20

4782

来自公众号：优达学城Udacity作者：Kerry Parker编译：欧剃作为数据科学家的第一个任务，就是做网页爬取。那时候，我对使用代码从网站上获取数据这项技术完全一无所知，它偏偏又是最有逻辑性并且最容易获得的数据来源。在几次尝试之后，网页爬取对我来说就几乎是种本能行为了。如今，它更成为了我几乎每天都要用到的少数几个技术之一。在今天的文章中，我将会用几个简单的例子，向大家展示如何爬取一...

IIS错误代码列表#汇总

wpstart的专栏

10-30

1万+

400 无法解析此请求。 401.1 未经授权：访问由于凭据无效被拒绝。 401.2 未经授权: 访问由于服务器配置倾向使用替代身份验证方法而被拒绝。401.3 未经授权：访问由于 ACL 对所请求资源的设置被拒绝。 401.4 未经授权：Web 服务器上安装的筛选器授权失败。 401.5 未经授权：ISAPI/CGI 应用程序授权失败。 401.7 未经授权：由于 Web 服务器上的 URL 授

HTTP Error 418：418是个啥！

热门推荐

shi_jiaye的博客

07-28

2万+

HTTP Error 418 在学习爬虫时，我们首先学习获取网站页面的html代码： from urllib import request resp = request.urlopen('https://movie.douban.com/nowplaying/hangzhou/') html_data = resp.read().decode('utf-8') print(html_data) 一般来说，我们通过以上的代码会爬取到网站页面的html代码。但，通过运行后报错HTTP Error 418。

爬虫：报错418

天玑的博客

12-06

3179

通过设置User-Agent头部信息为一个常见的浏览器User-Agent，如上述的Mozilla/5.0，你让请求看起来像是来自一个普通的浏览器，而不是爬虫。当你在进行网络爬虫时，有些网站会根据请求的User-Agent头部信息来判断是否是一个合法的请求。100 Continue：服务器已接收到请求的初始部分，并且客户端应继续发送其余部分。400 Bad Request：服务器无法理解客户端的请求，可能是语法错误等。201 Created：请求已经被实现，并且在服务器上创建了一个新的资源。

爬取网页时，报错出现404或者418问题

m0_63097763的博客

06-15

4466

出现该错误其实就是，该网页发现这是一个爬虫程序被识别出来，阻止爬取数据。解决方法：1）：添加headers代码段。如果仍然出现错误，可能是访问次数太多而被网页识别，需要在网页中找到 Cookie 属性并添加到 headers中添加之后应该就可以正常运行了。...

Python requests 抓取网页状态返回418(亲测)

gb4215287的博客

06-28

1416

是被网站反爬程序返回的解决：添加请求头headers信息 import requests headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'} res = requests.get(url,headers=headers) ——————————————...

python抓取网页返回状态码418

weixin_41054556的博客

03-18

6115

错误 python抓取网页返回状态码418，意思是被网站的反爬程序返回的解决：添加请求头headers信息 import requests headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Saf...

【解决办法】爬虫 python 抓取网页数据时，状态码为418

qq_41654485的博客

04-06

1585

import requests headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'} r = requests.get( '你要抓取数据的链接' , headers=headers) r.status_code r.text 只需加上头部信息【橙色显示两行代码】即可， .

python_code_418

weixin_33962923的博客

04-18

301

1. print for x in range(1,11) if x % 2 == 0 输出1-10内的偶数转载于:https://www.cnblogs.com/njuzwr/p/4437666.html