【Python_爬虫】【多进程】免费代理池模块

总述

现在的网络反爬虫手段层出不穷,针对该问题最简单的方法就是更换代理,该博文展示一种获取免费可用代理的方法

该模块最终会返回一个可用代理(Proxy)的列表,在其他类中导入该模块接收列表即可,实现了接口操作

该模块核心知识点

1.代理网址中 ip 数据的提取,这边采用xpath进行数据提取;

2.对获取到的 ip 数据进行检查,涮选出可用 ip;

3.通过进程池模块提高爬虫效率,降低爬取所需时间;

 

1.如何从代理网站上提取代理内容

代理网址很多,例如:快代理、西刺代理、98免费代理 等等,这边我们讲解西刺代理网址中的 ip 数据获取,其他网站以此类推。

首先,我们要明确知道我们需要哪些信息,在这边我们要获取IP地址以及端口号然后对其组合(http://120.83.108.89:9999)

紧接着我们右键检查网页元素信息

通过图片可知 ip 和 port 是在 //table[@id="ip_list"]/tbody/trtd[2]td[3]

这边要注意的是 tbody标签 经常不存在网页源码中,只单独存在网页元素中,而我们路径的选取是按网页源码作为标准的,为此,我们还要右键查看网页源码对路径进行二次比对确认

我们发现并

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值