用多进程爬取西刺代理能用的proxy

import requests
from lxml import etree
import time
# 424.13342022895813
import multiprocessing
from multiprocessing import Queue,Pool


#定义一个获取所有的代理ip的函数
def get_all_proxy(queue):
    url = 'http://www.xicidaili.com/nn/1'

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
    }
    response = requests.get(url, headers=headers)

    # with open('song.html', 'wb') as f:
    #     f.write(response.content)
    #下面三步是找到我们需要的ip和post
    html_ele = etree.HTML(response.text)

    ip_eles = html_ele.xpath('//table[@id="ip_list"]/tr/td[2]/text()')
    port_ele = html_ele.xpath('//table[@id="ip_list"]/tr/td[3]/text()')

    # print(len(ip_eles))
    # print(len(port_ele))
    # proxy_list = []
    # 循环所有的代理ip
    for i in range(0,len(ip_eles)):
        #组装成我们需要的格式
        proxy_str = 'http://' + ip_eles[i] + ':' + port_ele[i]
        # proxy_list.append(proxy_str)
        # 放到我们消息队列
        queue.put(proxy_str)
        # print(proxy_str)

#这个函数用来检测代理是否可用
def check_all_proxy(proxy):
    # print(11111111111111111111111)
    #用百度来检验
    url = 'http://www.baidu.com/s?wd=ip'
    proxy_dict = {
        'http': proxy
    }

    try:
        response = requests.get(url, proxies=proxy_dict, timeout=5)
        #返回码是200 说明可用
        if response.status_code == 200:
            print('这个人头送的好' + proxy)
            print(proxy)
            return proxy
        else:
            #这个虽然不是200,但是有返回值说不定能用
            print('这个人头没送好')
            print(proxy)
            return proxy
    except:
        pass
        #print('这个人头耶耶耶没送好--------------->')



if __name__ == '__main__':
    #定义一个开始时间
    start_time = time.time()
    #实例化一个消息队列
    q = Queue()
    #这个进程用来获取我们需要的proxy
    p = multiprocessing.Process(target=get_all_proxy,args=(q,))
    # proxy_list = get_all_proxy()
    #开启进程
    p.start()
    #定义一个进程池,10代表同时开启10个进程
    pool = Pool(10)
    proxy_lists = []
    while True:
        try:
            #从消息队列获取proxy
            proxy_str = q.get(timeout=5)
        except:
            #没有就结束死循环
            break
        #这个进程池里面用来检验proxy是否可用
        res_proxy = pool.apply_async(check_all_proxy,(proxy_str,))
        # print(res_proxy)
        # 把可用的放入到一个列表,但是得循环遍历并且用get()方法获取
        proxy_lists.append(res_proxy)

    res_true_proxy = []
    #获取所有能用的proxy
    for proxy in proxy_lists:
        res = proxy.get()
        if res:
            res_true_proxy.append(res)
    pool.close()
    pool.join()
    p.join()
    print(res_true_proxy)
    #定义结束时间
    end_time = time.time()
    print('--'*30)
    print('耗时:' + str(end_time-start_time))
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值