超简单的scrapy实现ip动态代理与更换ip

简单实现ip代理,为了不卖广告,
请自行准备一个ip代理的平台
例如我用的这个平台,每次提取10个ip
在这里插入图片描述
从上面可以看到数据格式是文本,换行是\r\n,访问链接之后大概就是长这样的,scrapy里面的ip需要加上前缀http://
例如:http://117.95.41.21:34854
在这里插入图片描述
OK,那现在已经准备好了ip了,先给你们屡一下思路。

ip池和计数器放在setting文件

第一次请求的时候要填满ip池,所以在爬虫文件的start_requests函数下手

更换ip的地方是middlewares的下载器中间件类的process_request函数,因为每个请求发起前都会经过这个函数

  1. 首先是setting文件,其实就是加两句代码
count = {'count': 0}
ipPool = []

还有就是开启下载器中间件,注意是下面那个download的类,中间件的process_request函数的时候才能生效
在这里插入图片描述


  1. 下载器中间件的process_request函数,进行ip代理和固定次数更还ip代理池
	# 记得导包
	from 你的项目.settings import ipPool, count
	import random
	import requests
	
    def process_request(self, request, spider):
        # 随机选中一个ip
        ip = random.choice(ipPool)
        print('当前ip', ip, '-----', count['count'])
        # 更换request的ip----------这句是重点
        request.meta['proxy'] = ip
        # 如果循环大于某个值,就清理ip池,更换ip的内容
        if count['count'] > 50:
            print('-------------切换ip------------------')
            count['count'] = 0
            ipPool.clear()
            ips = requests.get('你的ip获取的地址')
            for ip in ips.text.split('\r\n'):
                ipPool.append('http://' + ip)
        # 每次访问,计数器+1
        count['count'] += 1
        return None

  1. 最后就是爬虫文件的start_requests函数,就是第一次发请求前要先填满ip池的ip
	# 记得导包
	from 你的项目.settings import ipPool
	import random
	import requests
	
    def start_requests(self):
        # 第一次请求发起前先填充一下ip池
        ips = requests.get('你的ip获取的地址')
        for ip in ips.text.split('\r\n'):
            ipPool.append('http://' + ip)

简单的ip代理以及固定次数就更换ip池就完成了
在这里插入图片描述

对上面的代码有什么疑问,可以评论区留言,我会及时回复

  • 27
    点赞
  • 70
    收藏
    觉得还不错? 一键收藏
  • 22
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 22
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值