Python爬虫IP池搭建思路与实践

最新推荐文章于 2024-09-27 10:11:28 发布

yoggie尤

最新推荐文章于 2024-09-27 10:11:28 发布

阅读量727

点赞数 3

文章标签： python 爬虫 tcp/ip

本文链接：https://blog.csdn.net/yjq125931902/article/details/142391399

版权

在互联网数据采集的领域里，爬虫技术已经成为了不可或缺的一环。然而，随着网站反爬机制的日益完善，单一IP的爬虫经常会遭遇访问频率限制或直接被封禁的问题，这时候就需要使用到IP代理池（简称IP池）来解决这一困境了。今天我们就来聊聊如何利用Python构建一个高效稳定的IP池。

为什么需要IP池？

当我们的爬虫访问某个网站过于频繁时，服务器会自动检测到这种行为，并将其视为恶意访问。为了保护自身数据的安全性和稳定性，网站通常会对异常访问采取限制措施，如禁止该IP一段时间内的请求、降低其请求频率等。这不仅影响了爬虫的工作效率，有时甚至会使得爬虫无法继续运行下去。

为了解决这个问题，我们可以使用代理IP来替代自己的真实IP进行网络请求。而代理IP并不是固定不变的，而是从一个IP池中随机获取，这样就大大降低了被封禁的风险，同时也提高了爬虫的稳定性和效率。

如何构建一个IP池？

1. IP获取

免费代理API

目前市面上有许多提供免费代理API的服务商，比如西刺代理、快代理等。我们可以通过调用这些API接口获取到大量可用的代理IP地址。

import requests

def get_proxy():
    response = requests.get('http://api.xicidaili.com/free2016.txt')
    proxy_list = response.text.split('\r\n')
    return proxy_list

自行抓取

当然，也可以通过编写爬虫程序来抓取各大免费代理网站上的IP资源。下面是一个简单的示例代码：

from lxml import etree
import requests

def crawl_ips():
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
    }
    url = 'https://www.xicidaili.com/nn/'
    response = requests.get(url=url, headers=headers)
    selector = etree.HTML(response.text)
    all_trs = selector.xpath('//table[@id="ip_list"]/tr')

    ip_list = []
    for tr in all_trs[1:]:
        speed_str = tr.xpath('./td[7]/div/@title')[0]
        if float(speed_str) < 3:
            all_texts = tr.xpath('.//text()')
            ip = all_texts[0]
            port = all_texts[1]
            ip_list.append(ip + ':' + port)

    return ip_list

2. IP验证

获取到的IP并不都是可用的，我们需要对每一个IP进行有效性验证，只有验证通过的IP才能加入到IP池中。

import requests
from queue import Queue
from threading import Thread

def validate_proxy(proxy):
    proxies = {
        'http': 'http://' + proxy,
        'https': 'https://' + proxy,
    }
    try:
        response = requests.get('https://www.baidu.com', proxies=proxies, timeout=5)
        if response.status_code == 200:
            print(f'Valid proxy: {proxy}')
            return True
    except Exception as e:
        pass
    return False

def validate_proxies(proxies):
    valid_proxies = []
    q = Queue()
    for proxy in proxies:
        q.put(proxy)

    def worker():
        while not q.empty():
            proxy = q.get()
            if validate_proxy(proxy):
                valid_proxies.append(proxy)

    threads = [Thread(target=worker) for _ in range(10)]
    for thread in threads:
        thread.start()
    for thread in threads:
        thread.join()

    return valid_proxies

3. IP池管理

IP池存储

我们可以使用Redis数据库来保存这些经过验证的有效IP，这样既方便管理又可以实现高并发读写操作。

import redis

def store_proxies(valid_proxies):
    r = redis.Redis(host='localhost', port=6379, db=0)
    p = r.pipeline()
    for proxy in valid_proxies:
        p.sadd('proxies', proxy)
    p.execute()

IP池调度

接下来我们需要实现一个简单的IP调度器，当爬虫请求遇到访问限制时，可以从IP池中随机选取一个代理IP继续执行。

import random
import redis

class ProxyManager:

    def __init__(self):
        self.r = redis.Redis(host='localhost', port=6379, db=0)

    def get_proxy(self):
        proxies = self.r.smembers('proxies')
        return random.choice(list(proxies))

    def remove_proxy(self, proxy):
        self.r.srem('proxies', proxy)

IP存活检测

由于免费代理IP具有时效性，我们需要定期对IP池中的IP进行存活检测，及时剔除失效的IP，保证IP池的质量。

def check_alive(proxy_manager):
    while True:
        time.sleep(3600)  # 每隔一小时检查一次
        proxies = proxy_manager.r.smembers('proxies')
        alive_proxies = validate_proxies(proxies)
        for proxy in proxies:
            if proxy not in alive_proxies:
                proxy_manager.remove_proxy(proxy)