1、明确需求,找到url
通过在network中搜索数据发现旗云代理目前没有隐藏数据,直接根据网址请求即可
2、进行数据的爬取
import requests
import parsel
import time
import os
start = time.time() # 程序开始时间
proxy_list = [] # 接收爬取到的代理ip
def check_ip(proxies_list):
# 检测代理的可用性
can_use = []
for proxy in proxies_list:
try:
response = requests.get(url='https://www.baidu.com',proxies=proxy,timeout=2) # 等待时间
if response.status_code == 200:
can_use.append(proxy)
print('当前代理:%s,---检测通过---' % proxy)
except:
print('当前代理:%s响应超时,不合格'%proxy)
return can_use
count = 0
# 判断文件是否存在
if not os.path.exists('D:/studySpider/proxys'):
# 创建文件
os.mkdir('D:/studySpider/proxys')
url = 'https://proxy.ip3366.net/free/?action=china&page={0}'
headers = {

本文介绍了如何利用requests库爬取旗云代理的免费代理数据。首先明确了需求并找到相应的URL,然后详细讲述了爬取过程,成功获取到高质量的代理信息。作者还分享了学习大数据的心得,并邀请对此感兴趣的读者交流讨论。
最低0.47元/天 解锁文章

304

被折叠的 条评论
为什么被折叠?



