针对爬取豆瓣top250电影失败的问题

最新推荐文章于 2022-01-23 11:44:09 发布

今天要来电代码吗

最新推荐文章于 2022-01-23 11:44:09 发布

阅读量2.1k

点赞数 5

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/wzy1414/article/details/114447460

版权

python 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

本文介绍了在尝试爬取Douban电影Top250时遇到的418错误，原因是User-Agent被识别为非浏览器请求。通过修改headers中的User-Agent为常见的Mozilla/5.0，成功将状态码从418变为200，实现了爬取的成功。这个案例展示了在进行网络请求时如何处理网站的反爬策略。

摘要由CSDN通过智能技术生成

一开始的代码是

import requests
url = "https://movie.douban.com/top250"
r = requests.get(url)
r.status_code

显示的是418，这爬取失败；200才是爬取成功
这里我们先看一下我们的headers

r.request.headers
显示如下：
{'User-Agent': 'python-requests/2.25.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

这里我的 user-agent 是 python-requests/2.25.1 ，所以很可能是被网站检测 headers 中 user-agent 后发现是不是浏览器的 user-agent 给拒绝了
所以我们可以改一下 user-agent

import requests
url = "https://movie.douban.com/top250"
kv = {'user-agent' : 'Mozilla/5.0'} #因为很多浏览器的user-agent都是Mozilla/5.0，所以就用它
r = requests.get(url,headers = kv)
r.status_code

改了之后显示 200，说明爬取成功

今天要来电代码吗

关注

5
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
针对爬取豆瓣top250电影失败的问题

一开始的代码是import requestsurl = "https://movie.douban.com/top250"r = requests.get(url)r.status_code显示的是418，这爬取失败；200才是爬取成功这里我们先看一下我们的headersr.request.headers显示如下：{'User-Agent': 'python-requests/2.25.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '
复制链接

扫一扫

专栏目录