构建请求header fake_useragent安装以及解决方法

最新推荐文章于 2024-11-05 16:18:48 发布

*^O^*—*^O^*

最新推荐文章于 2024-11-05 16:18:48 发布

阅读量1.2k

点赞数 1

分类专栏：爬虫学习文章标签：爬虫 User-Agent 服务器访问伪装 fake_useragent

本文链接：https://blog.csdn.net/weixin_45070922/article/details/114520910

版权

爬虫学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

问题

如果服务器端拒绝非浏览器访问，如何处理？

表现形式

在这里插入图片描述

问题原因

出现这样的情况原因就是，服务器知道我们这是一个爬虫直接给禁止了，我们可以在网站上输入http://httpbin.org/get
得到如下结果
在这里插入图片描述
这时我们在看我们的爬虫

from urllib import request
url = 'http://httpbin.org/get'
req = request.urlopen(url)
obj = req.read().decode('utf-8')
print(obj)

在这里插入图片描述
这里其他的我们不关注其他的，只关注User-Agent，一个是浏览器，一个是python，所以我们只需要将headers里的User-Agent改变一下就好了

解决方法（两种）

1，我们在浏览器上将User-Agent的内容复制下来，如下

from urllib import request
url = 'https://movie.douban.com/top250'
myhead = { 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36", 
}
hd = request.Request(url,headers=myhead)
req = request.urlopen(hd)
req.read().decode('utf-8')

2，也可以fake_usergent，命令行下输入pip install fake_useragent，若是不能运行出现报错，可以输入pip install -U fake-useragent

from urllib import request
from fake_useragent import UserAgent
url = 'https://movie.douban.com/top250'
genua = UserAgent()
head = {'User-Agent':'genua.random'}
hd = request.Request(url,headers=head)
req = request.urlopen(hd)
req.read().decode('utf-8')