1、明确需求,找到url
通过在network中搜索数据发现旗云代理目前没有隐藏数据,直接根据网址请求即可
2、进行数据的爬取
import requests
import parsel
import time
import os
start = time.time() # 程序开始时间
proxy_list = [] # 接收爬取到的代理ip
def check_ip(proxies_list):
# 检测代理的可用性
can_use = []
for proxy in proxies_list:
try:
response = requests.get(url='https://www.baidu.com',proxies=proxy,timeout=2) # 等待时间
if response.status_code == 200:
can_use.append(proxy)
print('当前代理:%s,---检测通过---' % proxy)
except:
print('当前代理:%s响应超时,不合格'%proxy)
return can_use
count = 0
# 判断文件是否存在
if not os.path.exists('D:/studySpider/proxys'):
# 创建文件
os.mkdir('D:/studySpider/proxys')
url = 'https://proxy.ip3366.net/free/?action=china&page={0}'
headers = {