Python使用代理IP实时价格监控

最新推荐文章于 2025-05-07 13:20:02 发布

q56731523

最新推荐文章于 2025-05-07 13:20:02 发布

阅读量388

点赞数 9

文章标签： python tcp/ip 开发语言

本文链接：https://blog.csdn.net/weixin_44617651/article/details/147733158

版权

最近需要帮朋友写一段关于相关行业产品价格监控的代码，并且要使用代理IP来完成。首先，我得确认朋友的具体需求。他们可能想定期抓取某些电商网站的产品价格，同时避免被目标网站封禁IP，所以需要代理IP的支持。

首先，我应该考虑选择哪种编程语言。朋友之前没有指定，但Python在爬虫方面比较流行，有很多库支持，比如requests和BeautifulSoup，可能比较合适。然后，关于代理IP的使用，需要了解如何通过代码设置代理，可能还需要处理多个代理IP的轮换，以提高匿名性和避免被封。

接下来，我需要确定代码的结构。大概步骤应该是：获取代理IP列表，配置请求头模拟浏览器访问，使用代理发送请求，解析页面获取价格信息，处理异常情况，比如请求失败或代理不可用，最后存储结果。

在这里插入图片描述

以下是一个使用Python实现的价格监控示例代码，包含代理IP功能。该代码通过Requests库和BeautifulSoup实现网页抓取，并使用代理IP池进行请求轮询：

import requests
from bs4 import BeautifulSoup
import random
import csv
from fake_useragent import UserAgent
import time

# 配置代理IP池（示例，需替换为有效代理）
PROXY_POOL = [
    {"http": "http://123.45.67.89:8080", "https": "http://123.45.67.89:8080"},
    {"http": "http://112.233.44.55:3128", "https": "http://112.233.44.55:3128"},
    # 添加更多有效代理...
]

# 目标产品页面（示例：亚马逊产品页面）
TARGET_URL = "https://www.amazon.com/dp/B08J5F3G18"

def get_page_with_proxy(url, retry=3):
    """
    使用代理IP获取页面内容
    :param url: 目标URL
    :param retry: 重试次数
    :return: 页面内容或None
    """
    ua = UserAgent()
    headers = {'User-Agent': ua.random}
    
    for _ in range(retry):
        try:
            # 随机选择代理IP
            proxy = random.choice(PROXY_POOL)
            
            response = requests.get(
                url,
                headers=headers,
                proxies=proxy,
                timeout=15,
                verify=False  # 关闭SSL验证（生产环境需谨慎）
            )
            
            if response.status_code == 200:
                return response.text
                
        except (requests.exceptions.ProxyError, 
                requests.exceptions.ConnectTimeout,
                requests.exceptions.SSLError) as e:
            print(f"代理请求失败: {str(e)}，尝试切换代理...")
            # 移除失效代理
            PROXY_POOL.remove(proxy)
            if not PROXY_POOL:
                raise ValueError("代理池已耗尽")
            continue
            
        except Exception as e:
            print(f"请求异常: {str(e)}")
            time.sleep(5)
            
    return None

def parse_price(html):
    """
    解析价格信息（需根据目标网站结构调整）
    :param html: 页面HTML
    :return: 价格字符串
    """
    soup = BeautifulSoup(html, 'lxml')
    
    # 亚马逊价格选择器示例
    price_block = soup.select_one('#priceblock_ourprice')
    if price_block:
        return price_block.get_text(strip=True)
    
    # 备用选择器
    price_block = soup.select_one('.a-price-whole')
    if price_block:
        return price_block.get_text(strip=True)
    
    return "未找到价格信息"

def save_to_csv(data):
    """保存数据到CSV文件"""
    with open('price_monitor.csv', 'a', newline='', encoding='utf-8') as f:
        writer = csv.writer(f)
        writer.writerow([
            data['timestamp'],
            data['product_id'],
            data['price'],
            data['source']
        ])

def main():
    # 模拟多个产品监控
    products = {
        'B08J5F3G18': 'https://www.amazon.com/dp/B08J5F3G18',
        'B07ZPKN6YR': 'https://www.amazon.com/dp/B07ZPKN6YR'
    }

    for product_id, url in products.items():
        html = get_page_with_proxy(url)
        if not html:
            continue
            
        price = parse_price(html)
        print(f"产品 {product_id} 当前价格: {price}")
        
        # 保存记录
        save_to_csv({
            'timestamp': time.strftime("%Y-%m-%d %H:%M:%S"),
            'product_id': product_id,
            'price': price,
            'source': 'Amazon'
        })
        
        # 遵守爬虫礼仪，设置间隔
        time.sleep(random.randint(5, 15))

if __name__ == "__main__":
    main()

代码说明：

代理配置

使用PROXY_POOL存储代理IP（需替换为有效代理）
支持HTTP/HTTPS代理
自动移除失效代理并轮换

反爬措施

使用fake_useragent生成随机请求头
随机请求间隔（5-15秒）
自动代理轮换机制

核心功能

异常处理机制（代理错误/超时/SSL错误）
支持多产品监控
数据存储到CSV文件

扩展建议

# 需要自行完善的部分：
# 1. 实时更新代理池（建议使用付费代理服务API）
# 2. 添加更精细的异常处理
# 3. 根据目标网站结构调整解析逻辑
# 4. 添加验证码处理机制（如有需要）
# 5. 增加分布式部署能力

使用注意事项：

将代理IP替换为有效资源（推荐付费代理服务）
根据目标网站结构调整价格解析逻辑
遵守目标网站robots.txt协议
控制请求频率避免被封禁
生产环境建议添加以下功能：
- 代理有效性验证
- 日志记录系统
- 邮件/短信报警机制
- 数据库存储
- 分布式任务队列

建议搭配crontab或APScheduler实现定时任务执行，完成自动化价格监控。