一.打开想要爬取的网站,复制网址,打开开发者工具,点到网络那里,观察html
二.找到请求头数据,复制下来,方便待会伪造请求头
三.代码编写部分
1.导入三方模块
from fake_useragent import UserAgent
import requests
2.编写函数,伪造请求头
def test_proxy():
#设置代理
url = 'http://www.baidu.com/'
#设置ip代理参数
# 格式: 'type':'type://ip:端口号'
proxy={'http':'http://36.63.82.14:37908'}
请求头的值是前几步中在开发者工具里面找到的
headers = {
'User-Agent': UserAgent().chrome
}
# 发送请求
req = requests.get(url, headers=headers,proxies=proxy)
# 打印结果
print(req.text)
print("========================")
print(req.request.headers)
3.测试代码
if __name__=='__main__':
调用函数
test_proxy()