python&&代理

最新推荐文章于 2024-06-14 11:20:52 发布

不停歇向前^-^蜗牛

最新推荐文章于 2024-06-14 11:20:52 发布

阅读量351

点赞数

分类专栏： #Python&爬虫文章标签： python http https

本文链接：https://blog.csdn.net/weixin_48321071/article/details/123363859

版权

#Python&爬虫专栏收录该内容

25 篇文章 1 订阅

订阅专栏

代理

代理服务器

代理服务器的作用

就是用来转发请求和响应
在这里插入图片描述

在爬虫中为何需要使用代理？

有些时候，需要对网站服务器发起高频的请求，网站的服务器会检测到这样的异常现象

则会讲请求对应机器的ip地址加入黑名单，则该ip再次发起的请求，网站服务器就不在受理

则我们就无法再次爬取该网站的数据。

使用代理后，网站服务器接收到的请求，最终是由代理服务器发起，网站服务器通过请求获取的ip就是代理服务器的ip，并不是我们客户端本身的ip.

代理的匿名度

# 透明：网站的服务器知道你使用的代理，也知道你的真实ip
# 匿名：网站服务器知道你使用了代理，但是无法获知你真实的ip
# 高匿：网站服务器不知道你使用了代理，也不知道你的真实ip

代理的类型(重要)

http：该类型的代理服务器只可以转发http协议的请求

https:可以转发https协议的请求

如何获取代理？

代理精灵：http://http.zhiliandaili.cn/

芝麻代理：https://jahttp.zhimaruanjian.com/ （推荐，有新人福利）

如何使用代理？

测试：访问如下网址，返回自己本机ip

import requests
from lxml import etree

headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36'
}

url = 'https://www.sogou.com/web?query=ip'

# 使用代理服务器发起请求,查看是否可以返回代理服务器的ip
# proxies ={"代理类型"："ip：port"}
# page_text = requests.get(url=url,headers=headers,proxies={'https':'117.29.229.17:4213'}).text
# 打印输出本机ip
page_text = requests.get(url=url,headers=headers).text
tree= etree.HTML(page_text)
data = tree.xpath('//*[@id="ipsearchresult"]/strong/text()')[0]
print(data)

构建一个代理池

# proxy_url = 'https://www.sogou.com/web?query=ip'      # 提取ip代理格式
# json_data = requests.get(url=proxy_url,headers=headers).json()
# json_list = json_data['data']
# proxy_list = [] # 代理池
# for dic in json_list:
#     ip = dic['ip']
#     port = dic['port']
#     n_dic = {
#         'https':ip+':'+str(port)   # {''https}:'111.1.1.1:1234'}
#
#     }
#     proxy_list.append(n_dic)

不停歇向前^-^蜗牛

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python&&代理

代理代理服务器代理服务器的作用就是用来转发请求和响应在爬虫中为何需要使用代理？有些时候，需要对网站服务器发起高频的请求，网站的服务器会检测到这样的异常现象则会讲请求对应机器的ip地址加入黑名单，则该ip再次发起的请求，网站服务器就不在受理则我们就无法再次爬取该网站的数据。使用代理后，网站服务器接收到的请求，最终是由代理服务器发起，网站服务器通过请求获取的ip就是代理服务器的ip，并不是我们客户端本身的ip.代理的匿名度# 透明：网站的服务器知道你使用的代理，也知道你的真实ip# 匿名
复制链接

扫一扫